一站式百度SEO排名优化!-找老刘博客 低投入,高转化,精益求精、一丝不苟:旨在提供更好的SEO服务!

首页>>老刘专栏

网站SEO:为什么需要控制搜索引擎spider爬虫的访问?

首页 2019-10-06 老刘专栏 1603 ℃Tags: spider爬虫


PS:70周年的国庆假期,前4天在过夏天,5号之后直接进入冬季的节奏!还好准备的足够周全,温差过大容易感冒,希望大佬们多注意防寒保暖~!言归正传,下面我们进入今天的正题吧。


搜索引擎们用spider来爬(抓)取网络信息,查找和索引新的资讯内容并且提供给访客搜索和查找,这是当前互联网搜索引擎的通用方式。

网站SEO:为什么需要控制搜索引擎spider爬虫的访问?

加入一个网站想要在百度或者谷歌等常用的搜索引擎当中查找到您的网页内容,那么如此一来就需要了解一定的SEO知识,作为"免费流量"的一种,这是非常具有性价比的推广方式。 不过对于网站本身来讲,搜索引擎用来模拟抓取的spierd(即常说的搜索蜘蛛)与实际用户访问到网站的活动方式是有显著区别的。比如真人来点击访问你的页面,很大可能会耗费一定的时间去阅读入口页面,他们也可能会浏览更多资讯,当他们愿意在网站上点击更多的链接的时候,很可能是对这个网站很有兴趣,接下来他们会产生其他的操作,比如把喜欢的网页添加到浏览器收藏夹或者推荐给其他网友等等。


对于百度搜索引擎来说,用户黏性(页面停留时间是重要的参考因素)是早期网站评级的重要参考因素之一,这样一来就有些投机的黑帽SEO使用软件或者其他方式模拟用户访问网站的情况,来侧面增加目标网站的搜索引擎排位,即便现在也依然会有这样的操作!所谓的快排就是其中较为出名的一种,点此查看之前的文章:为啥快排这么火,怎么看待SEO快速排名及其操作机制?


spider机器人拜访你的网站,主要的任务是要抓取你网站的上的内容,所以它们最可能从首页开始,它们轻松的的找出网站的每一个连结一个接著一个,直到发现全部的内容。


所以一个搜寻引擎机器人访客,可能潜在影响数百个使用者资源,就算没有上千个访客在你的网站上,一个资源使用到极限的网站,最后可能会让网站停止运作,如果只允许真是用户访问拜访的话,这是可以避免的,并且设定只有想要的的搜索spider机器人可以进入你的网站,比如我只想要百度spider爬虫的访问,这就可以直接在robots.txt里设置,如此可以减少服务器的压力,节约更多资源。


如何控制spider机器人?

绝大多数的守规矩的爬虫机器人,是会跟随一个标准化的robots.txt规则文件,如果你需要进一步的了解,如何阻挡搜寻机器人检索你的网站,你可以观看这篇文章超详细robots.txt使用方法大全和禁止目录收录及指定页面或者robots.txt和nofollow的实际效果有什么不同?


当然不幸的是,不是全部的搜索引擎蜘蛛机器人都会顺从robots.txt规则,早期360和百度都要这种传闻,具体真假有待商榷,但这种事情宁可信其有,防小人不防君子。在这种情况下,最好的方式就是学习使用.htaccess或者限制ip段等方式来控制访问。.htaccess是在服务器中的隐藏文件,它可以控制网页与其他工具之间存取的权限,有机会咱们再详细讨论,这里简单给出一个预告。


如果你想一次阻挡多个User-Agent,你可以设计编辑以下代码:

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^.*(Baiduspider|HTTrack|Yandex).*$ [NC]

RewriteRule .* – [F,L]

或者你也可以使用BrowserMatchNoCase 指令,代码如下仅供参考:

BrowserMatchNoCase “Baiduspider” bots

BrowserMatchNoCase “HTTrack” bots

BrowserMatchNoCase “Yandex” bots

Order Allow,Deny

Allow from ALL

Deny from env=bots


搜索
分类
热门标签
  • 首页
  • 电话
  • QQ
  • 联系老刘手机
    1043025812
    联系老刘微信
    扫描微信二维码