首页>>老刘专栏
Unknown robot (identified by 'spider')是什么蜘蛛?
一般的蜘蛛都会在后台控制面板中显示名字,例如baidu,google,yahoo,alexa等等,但是如果你用的虚拟主机是cpanel的控制面板,那么发现Unknown robot (identified by 'spider')这个蜘蛛消耗很大的网站流量,那么可以推测这个是百度蜘蛛,因为cpanel的控制面板默认是不识别百度蜘蛛的,所以就会显示为Unknown robot (identified by 'spider')。而且通过robots.txt是无法禁止这个蜘蛛抓取网站内容的——这些垃圾爬虫不可能老老实实遵守robots规则,君不见新浪和字节前段时间还因为robots.txt打了官司,大厂都如此,其他爬虫更别指望。
宝塔屏蔽常见垃圾蜘蛛和扫描工具的两种办法:最近观察网站后台网站蜘蛛爬取状况,除了我们常见的搜索引擎如百度、Google、Sogou、360等搜索引擎蜘蛛之外,还发现有很多垃圾的蜘蛛平繁的爬取本站,通常这些搜索引擎不仅不会带来流量,因为大量的抓取请求,还会造成主机的CPU和带宽资源浪费,屏蔽方法也很简单,按照下面步骤操作即可,原理就是分析指定UA然后屏蔽。
下面给大家带来两种屏蔽垃圾蜘蛛的方法
方法一 通过网站Robots.txt来屏蔽
User-agent: AhrefsBot Disallow: / User-agent: DotBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: Uptimebot Disallow: / User-agent: MJ12bot Disallow: / User-agent: MegaIndex.ru Disallow: / User-agent: ZoominfoBot Disallow: / User-agent: Mail.Ru Disallow: / User-agent: SeznamBot Disallow: / User-agent: BLEXBot Disallow: / User-agent: ExtLinksBot Disallow: / User-agent: aiHitBot Disallow: / User-agent: Researchscan Disallow: / User-agent: DnyzBot Disallow: / User-agent: spbot Disallow: / User-agent: YandexBot Disallow: /
JavaScript
把以上代码复制到网站robots.txt里面
方法二、通过宝塔面板配置文件判断来屏蔽垃圾蜘蛛和扫描工具
1.首先进入宝塔面板,文件管理进入/www/server/nginx/conf目录,新建空白文件kill_bot.conf。然后将以下代码保存到当前文件中。
#禁止垃圾搜索引擎蜘蛛抓取教程来自痴痴资源网 https://www.chichisvip.com/
if ($http_user_agent ~* "CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms") { return 403; break; } #禁止扫描工具客户端 if ($http_user_agent ~* "crawl|curb|git|Wtrace|Scrapy" ) { return 403; break; }
2.保存后返回到宝塔 – 【网站】-【设置】点击左侧 【配置文件】选项卡,在 “#SSL-START SSL相关配置,请勿删除或修改下一行带注释的404规则” 上方空白行插入红色字体的代码:“include kill_bot.conf; ” 保存后即可生效,这样这些蜘蛛或工具扫描网站的时候就会提示403禁止访问。
希望这个教程能帮助到大家,谢谢支持!
实测下面的屏蔽ip段,效果更好!
使用Nginx文件屏蔽IP地址
如果您的网站在增强版云虚拟主机(Nginx)上运行,请按照本操作配置网站的指定访问权限,屏蔽不允许的IP地址访问。
登录云虚拟主机管理页面。
找到待配置Nginx文件的增强版云虚拟主机,单击对应操作列的管理。
在左侧导航栏,选择 。
在NGINX设置页面的编辑区域,输入您的配置Nginx文件内容(IP地址屏蔽规则)。
以WordPress网站配置Nginx文件为例。
各场景下IP地址屏蔽的生效规则示例如下所示:
禁止单个IP地址访问
location / { deny 192.168.13.0; }
禁止多个指定IP地址访问
location / { deny 192.168.13.0; deny 192.168.13.1; deny 10.1.5.0; }
禁止多个不指定IP地址访问
location / { allow 192.168.13.0; allow 10.1.5.0; deny all; }
禁止IP地址段访问
location / { deny 192.168.13.0/24; }
说明 使用掩码方式配置IP地址段权限时,请您使用网段中最小地址/掩码方式,否则会出现配置错误提示:更新nginx设置失败:nginx: [warn] low address bits of **** are meaningless。
Nginx文件编辑完成后,单击保存设置。
完成IP屏蔽规则的配置后,如果这些屏蔽的IP再次访问您的WordPress网站,网页会返回403错误,表示您无访问权限。
使用.htaccess文件屏蔽IP地址
如果您的网站在普通版Linux操作系统云虚拟主机(Apache)上运行,请按照本方法配置网站的指定访问权限,屏蔽不允许的IP地址访问。
登录云虚拟主机管理页面。
找到待管理网站文件的Linux操作系统云虚拟主机,单击对应操作列的管理。
在左侧导航栏,选择 。
在文件管理器页面,上传网站程序文件到Linux操作系统云虚拟主机。
关于上传网站程序文件到云虚拟主机的站点根目录的具体操作,请参见使用文件管理器管理文件。
说明 如果您使用FTP工具管理云虚拟主机上的网站文件,具体操作,请参见上传网站文件到Linux操作系统云虚拟主机。
在Linux操作系统云虚拟主机的/htdocs目录下,找到需要查看或修改的.htaccess文件,单击对应操作列的查看。
说明 如果您使用FTP客户端查看或修改.htaccess文件,该文件一般为隐藏文件,关于如何显示隐藏文件的具体操作,请参见如何显示FTP隐藏的文件。通过FTP客户端连接云虚拟主机后,您可以在远程站点区域通过下载、编辑和上传操作来完成.htaccess文件的修改。
在弹出的文件查看/编辑页面的编辑区域,输入您的.htaccess文件内容(IP地址屏蔽规则)。
以WordPress网站配置.htaccess文件为例。
各场景下IP地址屏蔽的生效规则示例如下所示:
禁止单个IP地址访问
Order Allow,Deny Allow from allDeny from 192.0.2.0
禁止多个指定IP地址访问
Order Allow,Deny Allow from allDeny from 192.0.2.1 192.0.2.0
或者
Order Deny,Allow Deny from 192.0.2.1 192.0.2.0
禁止多个不指定IP地址访问
Order Deny,Allow Deny from allAllow from 192.0.2.1 192.0.2.0
禁止IP地址段访问
Order Allow,Deny Allow from allDeny from 192.168.13.0/24
.htaccess文件编辑完成后,单击确认。
完成IP屏蔽规则的配置后,如果这些屏蔽的IP再次访问您的WordPress网站,网页会返回403错误,表示无访问权限。
猜你喜欢
- 2024-02-23 提高小红书运营效率的6个工具
- 2022-11-10 【官方文档】百度搜索网站被黑防范指南
- 2022-11-03 【干货必备】百度搜索优质内容指南
- 2022-08-01 百度隐藏“快照”功能:原因未知-百度快照没了?
- 2022-06-20 浅析“百度搜索基础信息设置规范”!
- 2022-06-15 SEO尴尬,有排名,没流量,没咨询,怎么办?
- 搜索
-
- 2024-04-07 小红书+抖音+直播常见违禁词及替换方法
- 2024-03-14 刷量成风,广告主损失惨重?该被重视了!
- 2024-03-06 代理投的好,还需要招自己的优化师吗?
- 2024-02-23 提高小红书运营效率的6个工具
- 2024-02-23 千川投放百宝书:2万字详解,一篇全掌握!
- 2024-02-20 年后求职15个关键面试问题,助优化师脱颖···
- 2024-01-31 不行就去做销售吧!
- 2024-01-09 合格的优化师,需具备这6项思维能力!
- 2023-12-28 25个金句文案句式,直接套!
- 2023-12-05 做私域必备的10个朋友圈黄金模板
- 2023-12-05 15个爆款短视频文案技巧,看完立马用!
- 2023-11-27 浅析:《百度搜索优质内容解读》,当下百度···
- 2019-11-01 Origin DNS error:使用百···
- 2020-06-20 “401 - 未授权: 由于凭据无效,访···
- 2020-12-01 一级域名好还是二级域名好?
- 2020-10-13 百度抓取诊断工具一直抓取失败怎么办?
- 2019-12-09 域名解析后,网站返回状态码511应对方法
- 2020-04-10 百度下拉框怎么刷?刷百度下拉框软件原理及···
- 2019-08-12 网站出现“403,服务器上文件或目录拒绝···
- 2021-04-13 html/txt文件中文用浏览器打开有乱···
- 2021-01-06 百度移动端的搜索结果上线“踩顶”功能,对···
- 2020-09-03 element.style样式的修改
- 2019-11-06 正确打开.db数据库文件的两种方式,避免···
- 2020-10-20 UC神马搜索怎么做快速排名优化
- 2020-06-20 “401 - 未授权: 由于凭据无效,访···
- 2020-02-27 跳槽时,如何才能争取到更高的薪资?
- 2019-10-10 百度手机端排名感受与移动web端转化率问···
- 2019-06-17 「seo高手进阶」百度高级搜索命令及其组···
- 2019-07-08 网站频繁被黑,总是被劫持快照怎么办?
- 2019-05-22 杜绝翻页诱导行为,百度搜索信风算法即将上···
- 2021-10-13 企业SEO排名,现阶段制约排名的5个因素···
- 2019-02-19 如何处理品牌词名称,被其他站点收录?
- 2020-10-20 如何利用Google的“WebStory···
- 2020-07-12 seo方案计划书不会写?这里告诉你思路!
- 2023-05-26 马斯洛需求层次理论金字塔
- 2022-07-22 浅析,百家号“快排”的乱象丛生,希望百度···
- 热门标签
-
- 401错误
- 401未授权
- 语义效应
- 话术技巧
- 百度
- 谷歌
- pagerank算法
- 算法原理
- tab切换
- 选项卡滑动切换
- 达克效应
- 认知局限
- 交流分享
- webp转GIF
- webp格式转GIF动图
- webp to gif
- 锚定效应
- 百度快排
- 快速排名
- SEO快排
- 万词霸屏
- SEO优化
- 按天计费系统
- 搜索推广模式对比
- SEO快速排名
- SEO优化师
- seo工资
- 合肥seo
- seo公司
- 合肥优化公司
- 选择seo公司
- 互联网黑话
- 2019it黑话
- 网站被k
- 收录消失
- 百度熊掌号
- 网页劫持
- 灰色样式
- 百度公告
- seo计费系统
- seo外包
- 外包公司
- seo职业发展
- FTP
- ftp隐藏文件
- seo改版
- 网站改版周期
- 301重定向
- 首选域名
- 301跳转
- spider爬虫
- 在家办公
- 伪静态
- 纯静态
- seo友好度
- seo前景
- seo发展
- 2019冬至
- 冬至
- 企业主
- 中文搜索
- 头条搜索
- 中文搜索引擎起源和发展
- 网站改版
- seo部署
- seo内容
- 优质内容
- 头条权重
- 私域流量
- seo高手
- seo套路
- seo误区
- 百度算法
- 算法更新
- 网站排名波动
- 网站惩罚
- 百度小程序
- 小程序
- 友情链接
- 被惩罚链接
- seo策略
- seo平衡
- seo和可访问性
- 黑帽SEO
- 刷快排
- seoer
- 提升seo价值
- 屏蔽右键
- 禁止右键
- 禁止查看源代码
- 重复内容
- 重复页面
- 内啡肽
- seo习惯
- seo专家
- seo思维塑造
- 互联网名词
- it专属名词
- 360算法