一站式百度SEO排名优化!-找老刘博客 低投入,高转化,精益求精、一丝不苟:旨在提供更好的SEO服务!

首页>>SEO问题

网站日志咋分析?

首页 2019-04-08 SEO问题 1472 ℃Tags: 网站日志 日志分析


新网站上线1个多月了没有收录?首页收录忽然消失?详情页出图率忽高忽低?这些都可以从服务器的网站日志中捉到蛛丝马迹,当然这些对于SEO新手朋友来说,可能会是伤脑筋的事情。本文即从个人经验中提取简述网站日志的基本分析流程,欢迎指正。


通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面 ,是否访问成功。对于专业从事搜索引擎优化工作者而言,网站日志可以记录各搜索引擎蜘蛛机器人爬行网站的详细情况,例如:哪个IP的百 度蜘蛛机器人在哪天访问了网站多少次,访问了哪些页面,以及访问页面时返回的HTTP状态码。


通过网站日志我们可以知道网站的那些页面是很受蜘蛛欢迎的,而哪些页面是蜘蛛连碰都不去碰的,同时我们还能发现有一些蜘蛛由于是过度爬取对我们的服务器资源损耗是很大的,我们要进行屏蔽工作。

阿里云服务器网站日志位置


一、怎么获取网站日志?

以阿里云为例,在服务器的管理控制面板中,我们找到文件管理》网站日志下载》点击下载即可,当然阿里云默认有7天的网站日志,也可以选择直接下载当天的日志,默认的保存目录在站点根目录的wwwlogs文件夹中,如下图所示:


网站日志默认目录


阿里云服务器网站7天日志

二、网站日志怎么分析?

很多网站的日志数据量庞大,仅仅就搜索引擎蜘蛛来说就有几百上千次,按天保存的数据就不是简单的手工可以查询的了的,那么这里我们其实可以借助一些分析工具或者表格来分析,常用的如web log exploer、国内的光年日志分析工具、Excel表格等等。


随机复制了一段日志,以此为例,更易理解:

123.125.71.58 - - [31/Mar/2019:14:14:06 +0800] "GET /SEOTechnology.html HTTP/1.1" 200 27434 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" www.XXXX.com text/html "/usr/home/qXXXXXXXXX1/htdocs/index.php" 93606

123.125.71.58:来访ip; [31/Mar/2019:14:14:06 +0800]:访问时间、时区; "GET /SEOTechnology.html HTTP/1.1":根据HTTP/1.1 协议 抓取(域名下)/SEOTechnology.html 这个页面(GET表示服务器动作); 200 27434:200表示状态码(正常可访问页面状态码,如果出现404就表示页面无法访问,需要调整或者留意了),27434表示抓取了27434个字节; "Mozilla/5.0 (compatible; Baiduspider/2.0; 前半段“Mozilla/5.0”表示访问者使用的浏览器版本以及相应来源;

三、网站日志告诉我们什么?

1、蜘蛛喜欢什么样子的页面;2、我们的服务器是否足够稳定;3、搜索引擎对于文章的喜好度、更新时间等;4、异常状态码需要及时处理;


四、蜘蛛的ip段有什么特殊含义吗?

虽然百度并没有给出官方的解释,但是站长们根据自身经验,还是能推导出一些经验,以下是网上大神们总结的蜘蛛ip段代表的含义:


  以下是常见的百度蜘蛛IP段:

  根据不同的IP我们可以分析网站是个怎样的状态.下面 就按照IIS日记上的百度蜘蛛IP为例:123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。

  220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。 220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。 121.14.89.*这个ip段作为度过新站考察期。 203.208.60.*这个ip段出现在新站及站点有不正常现象后。 210.72.225.*这个ip段不间断巡逻各站。 125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。 220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。 220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。 123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。 220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。 220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。 220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。 123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。 123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。 220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。 220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。 220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。 220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。 220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。 123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。 220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。 注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP 代表抓取内页收录的权重比较低. 可能由于你采集文章或拼文章暂时被收录但不放出来.(意思也就是说待定)。

本文小结:无论网站基础如何,网站日志都有其存在的意义,查缺补漏,说不住你的网站距离首页第一位只剩一次网站日志的检查工作。长时间不收录的新站或者K站未回复,从日志中也是能看出端倪的。如果存在问题的网站看成是一个病人,那么网站日志就是患者的体检报告,有经验的医生能够对症下药,药到病除!


以下是常见的蜘蛛名称,辨识度比较高,相信一般不会认错:


Baiduspider:百度蜘蛛 

Baiduspider-Image:百度图片蜘蛛 

Googlebot:谷歌机器人 

Googlebot-Image:谷歌图片机器人 

360Spider:360蜘蛛 

sogou spider:搜狗蜘蛛


搜索
分类
热门标签
  • 首页
  • 电话
  • QQ
  • 联系老刘手机
    1043025812
    联系老刘微信
    扫描微信二维码