一站式百度SEO排名优化!-找老刘博客 低投入,高转化,精益求精、一丝不苟:旨在提供更好的SEO服务!

首页>>老刘专栏

Unknown robot是什么蜘蛛?怎么屏蔽垃圾蜘蛛爬虫,屏蔽ip段?

首页 2022-10-31 老刘专栏 1004 ℃Tags:


Unknown robot (identified by 'spider')是什么蜘蛛?

一般的蜘蛛都会在后台控制面板中显示名字,例如baidu,google,yahoo,alexa等等,但是如果你用的虚拟主机是cpanel的控制面板,那么发现Unknown robot (identified by 'spider')这个蜘蛛消耗很大的网站流量,那么可以推测这个是百度蜘蛛,因为cpanel的控制面板默认是不识别百度蜘蛛的,所以就会显示为Unknown robot (identified by 'spider')。而且通过robots.txt是无法禁止这个蜘蛛抓取网站内容的——这些垃圾爬虫不可能老老实实遵守robots规则,君不见新浪和字节前段时间还因为robots.txt打了官司,大厂都如此,其他爬虫更别指望。

image.png

宝塔屏蔽常见垃圾蜘蛛和扫描工具的两种办法:最近观察网站后台网站蜘蛛爬取状况,除了我们常见的搜索引擎如百度、Google、Sogou、360等搜索引擎蜘蛛之外,还发现有很多垃圾的蜘蛛平繁的爬取本站,通常这些搜索引擎不仅不会带来流量,因为大量的抓取请求,还会造成主机的CPU和带宽资源浪费,屏蔽方法也很简单,按照下面步骤操作即可,原理就是分析指定UA然后屏蔽。

下面给大家带来两种屏蔽垃圾蜘蛛的方法

方法一 通过网站Robots.txt来屏蔽

User-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /

JavaScript

把以上代码复制到网站robots.txt里面


方法二、通过宝塔面板配置文件判断来屏蔽垃圾蜘蛛和扫描工具

1.首先进入宝塔面板,文件管理进入/www/server/nginx/conf目录,新建空白文件kill_bot.conf。然后将以下代码保存到当前文件中。

#禁止垃圾搜索引擎蜘蛛抓取教程来自痴痴资源网 https://www.chichisvip.com/

if ($http_user_agent ~* "CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms") {
 return 403;
 break;
}
#禁止扫描工具客户端
if ($http_user_agent ~* "crawl|curb|git|Wtrace|Scrapy" ) {
 return 403;
 break;
}

2.保存后返回到宝塔 – 【网站】-【设置】点击左侧 【配置文件】选项卡,在 “#SSL-START SSL相关配置,请勿删除或修改下一行带注释的404规则” 上方空白行插入红色字体的代码:“include kill_bot.conf; ” 保存后即可生效,这样这些蜘蛛或工具扫描网站的时候就会提示403禁止访问。

希望这个教程能帮助到大家,谢谢支持!

实测下面的屏蔽ip段,效果更好!

使用Nginx文件屏蔽IP地址

如果您的网站在增强版云虚拟主机(Nginx)上运行,请按照本操作配置网站的指定访问权限,屏蔽不允许的IP地址访问。

  1. 登录云虚拟主机管理页面

  2. 找到待配置Nginx文件的增强版云虚拟主机,单击对应操作列的管理

  3. 在左侧导航栏,选择高级环境设置 > NGINX设置

  4. NGINX设置页面的编辑区域,输入您的配置Nginx文件内容(IP地址屏蔽规则)。

    以WordPress网站配置Nginx文件为例。

    各场景下IP地址屏蔽的生效规则示例如下所示:

    • 禁止单个IP地址访问

      location / {
          deny 192.168.13.0;
      }
    • 禁止多个指定IP地址访问

      location / {
          deny 192.168.13.0;
          deny 192.168.13.1;
          deny 10.1.5.0;
      }
    • 禁止多个不指定IP地址访问

      location / {
          allow 192.168.13.0;
          allow 10.1.5.0;
          deny all;
      }
    • 禁止IP地址段访问

      location / {
          deny 192.168.13.0/24;
      }

      说明 使用掩码方式配置IP地址段权限时,请您使用网段中最小地址/掩码方式,否则会出现配置错误提示:更新nginx设置失败:nginx: [warn] low address bits of **** are meaningless

  5. Nginx文件编辑完成后,单击保存设置

    完成IP屏蔽规则的配置后,如果这些屏蔽的IP再次访问您的WordPress网站,网页会返回403错误,表示您无访问权限。

使用.htaccess文件屏蔽IP地址

如果您的网站在普通版Linux操作系统云虚拟主机(Apache)上运行,请按照本方法配置网站的指定访问权限,屏蔽不允许的IP地址访问。

  1. 登录云虚拟主机管理页面

  2. 找到待管理网站文件的Linux操作系统云虚拟主机,单击对应操作列的管理

  3. 在左侧导航栏,选择文件管理 > 文件管理器

  4. 文件管理器页面,上传网站程序文件到Linux操作系统云虚拟主机。

    关于上传网站程序文件到云虚拟主机的站点根目录的具体操作,请参见使用文件管理器管理文件

    说明 如果您使用FTP工具管理云虚拟主机上的网站文件,具体操作,请参见上传网站文件到Linux操作系统云虚拟主机

  5. 在Linux操作系统云虚拟主机的/htdocs目录下,找到需要查看或修改的.htaccess文件,单击对应操作列的查看

    说明 如果您使用FTP客户端查看或修改.htaccess文件,该文件一般为隐藏文件,关于如何显示隐藏文件的具体操作,请参见如何显示FTP隐藏的文件。通过FTP客户端连接云虚拟主机后,您可以在远程站点区域通过下载、编辑和上传操作来完成.htaccess文件的修改。

  6. 在弹出的文件查看/编辑页面的编辑区域,输入您的.htaccess文件内容(IP地址屏蔽规则)。

    以WordPress网站配置.htaccess文件为例。

    各场景下IP地址屏蔽的生效规则示例如下所示:

    • 禁止单个IP地址访问

      Order Allow,Deny
      Allow from allDeny from 192.0.2.0
    • 禁止多个指定IP地址访问

      Order Allow,Deny
      Allow from allDeny from 192.0.2.1 192.0.2.0

      或者

      Order Deny,Allow
      Deny from 192.0.2.1 192.0.2.0
    • 禁止多个不指定IP地址访问

      Order Deny,Allow
      Deny from allAllow from 192.0.2.1 192.0.2.0
    • 禁止IP地址段访问

      Order Allow,Deny
      Allow from allDeny from 192.168.13.0/24
  7. .htaccess文件编辑完成后,单击确认

    完成IP屏蔽规则的配置后,如果这些屏蔽的IP再次访问您的WordPress网站,网页会返回403错误,表示无访问权限。


搜索
分类
热门标签
  • 首页
  • 电话
  • QQ
  • 联系老刘手机
    1043025812
    联系老刘微信
    扫描微信二维码