yisouspider爬行robots文件禁止的路径
UC社区神马搜索中给出的阐明:
robots.txt是搜索引擎访问网站时要访问的第一个文件,以确定哪些网页是许可或禁止抓取的。yisouspider遵守robots.txt协议。如您希望完备禁止神马访问或对部分目录禁止访问,您可以通过robots.txt文件来设置内容,限定yisouspider的访问权限。
如果您开通了CNZZ云推举行事,协议中默认支持yisouspider抓取,会忽略robots.tx文件协议的限定。
限定Yisouspider访问权限的robots协议写法
robots.txt必须放在网站根目录下,且文件名要小写。
详细写法:
1) 完备禁止yisouspider抓取:
User-agent: yisouspider
Disallow: /
2) 禁止yisouspider抓取指定目录
User-agent: yisouspider
Disallow: /update
Disallow: /history
禁止抓取update、history目录下网页
疑问
我们平时写robots协议的时候都是直接写User-agent: ,跟神马搜索给出的User-agent: yisouspider有点不一样,不知道是不是这个问题导致我们的robots协议对yisouspider毫无浸染。
不过我也
Nginx屏蔽爬虫yisouspider访问站点方法:
进入到nginx安装目录下的conf目录,将如下代码保存为 agent_deny.conf
#禁止Scrapy等工具的抓取
if ($http_user_agent ~ (Scrapy|Curl|HttpClient)) {
return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~ \"大众yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$\公众 ) {
return 403;
}
#禁止非GET|HEAD|POST办法的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}
然后,在网站干系配置中的
location / {
try_files $uri $uri/ /index.php?$args;
下方插入如下代码:
include agent_deny.conf;
保存后,实行如下命令,平滑重启nginx即可:
/usr/local/nginx/sbin/nginx -s reload
懿古今和boke112导航站点便是利用这个方法成功屏蔽爬虫yisouspider访问。设置好之后,我的ECS做事器CPU的利用率立马就降下来了。
根据百度统计给出的数据,我的站点来自神马搜索的不多,以是权衡之下只能禁止yisouspider蜘蛛爬行了,要不然我的站点常常被它搞瘫了就得不偿失落了。如果你的做事器比较给力,不会被搞瘫的话,就没必要禁止它了。
PS:请许可我用小心之心揣测,以前利用阿里云免费虚拟主机每个月都会涌现资源耗尽,最大的问题很有可能就会被yisouspider蜘蛛爬行导致的。
Apache屏蔽爬虫yisouspider访问站点方法:
1、通过修正 .htaccess文件
修正网站目录下的.htaccess,添加如下代码即可(2种代码任选):
可用代码 (1):
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]
RewriteRule ^(.)$ - [F]
可用代码 (2):
SetEnvIfNoCase ^User-Agent$ .(yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT
Order Allow,Deny
Allow from all
Deny from env=BADBOT
2、通过修正httpd.conf配置文件
找到如下类似位置,根据以下代码 新增 / 修正,然后重启Apache即可:
DocumentRoot /home/wwwroot/xxx
<Directory \"大众/home/wwwroot/xxx\公众>
SetEnvIfNoCase User-Agent \"大众.(yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)\公众 BADBOT
Order allow,deny
Allow from all
deny from env=BADBOT
</Directory>
PHP代码屏蔽爬虫yisouspider访问站点方法:
将如下方法放到贴到网站入口文件index.php中的第一个 <?php 之后即可:
//获取UA信息
$ua = $_SERVER['HTTP_USER_AGENT'];
//将恶意USER_AGENT存入数组
$now_ua = array('yisouspider','FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');
//禁止空USER_AGENT,dedecms等主流采集程序都是空USER_AGENT,部分sql注入工具也是空USER_AGENT
if(!$ua) {
header(\公众Content-type: text/html; charset=utf-8\"大众);
die('请勿采集本站,由于采集的站长木有小JJ!
');
}else{
foreach($now_ua as $value )
//判断是否是数组中存在的UA
if(eregi($value,$ua)) {
header(\"大众Content-type: text/html; charset=utf-8\公众);
die('请勿采集本站,由于采集的站长木有小JJ!
');
}
}
温馨提示
本文三种方法及代码均来自张戈博主分享的《做事器反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站》。对付Apache和PHP代码屏蔽yisouspider的办法懿古今没有亲自测试,本站只采取了Nginx屏蔽yisouspider的办法,以是如果采取其他方法碰着问题的请前往张戈博客留言乞助。
附录:UA网络
下面是网络上常见的垃圾UA列表,仅供参考,同时也欢迎你来补充。
yisouspider 一搜蜘蛛
FeedDemon 内容采集
BOT/0.1 (BOT for JCE) sql注入
CrawlDaddy sql注入
Java 内容采集
Jullo 内容采集
Feedly 内容采集
UniversalFeedParser 内容采集
ApacheBench cc攻击器
Swiftbot 无用爬虫
YandexBot 无用爬虫
AhrefsBot 无用爬虫
YisouSpider 无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!
)
MJ12bot 无用爬虫
ZmEu phpmyadmin 漏洞扫描
WinHttp 采集cc攻击
EasouSpider 无用爬虫
HttpClient tcp攻击
Microsoft URL Control 扫描
YYSpider 无用爬虫
jaunty wordpress爆破扫描器
oBot 无用爬虫
Python-urllib 内容采集
Indy Library 扫描
FlightDeckReports Bot 无用爬虫
Linguee Bot 无用爬虫
原文地址:http://yigujin.cn/1026.html