刚开始明月也是不相信会是百度蜘蛛爬虫造成的这个结果,但是在把几天的 Nginx 日志里的 IP 进行了筛选后得出的结果是这些爬虫的 IP 险些都是真实的百度蜘蛛爬虫IP,并不是大略的 UA 仿冒百度蜘蛛爬虫。我去,这个结果至心让人很忧郁呀:我竟然被别人梦寐以求的百度蜘蛛爬虫给围殴了!
俗话说“事出反常必有妖”,本着这个思路明月开始了为期一周的排查事情,由于【不熬夜,是最顶级的自律】和【熬夜如何改变了我们的身体】这两篇文章的缘故明月正在戒掉“熬夜”这个习气(希望像明月戒烟一样能成功哦!
)以是这次排查事情效率很低,都是抽空进行的,须要多次随机的抽查这些蜘蛛爬虫要求的 User Agaent、IP、链接、主机域名等等数据,直到本日终于让明月给找到问题出在哪里了?
造成百度蜘蛛爬虫这次大批量、持续性的抓取一个最紧张的缘故原由是百度站长平台的“抓取频次”过高造成的,查看百度站长平台站点抓取频次如下图:
可以看到是 21912 次/天,可以想象这个频次给网站做事器带来了多大的压力呀!
一贯到末了明月才创造这次是两个站点的高频次抓取一起汇总到我一个做事器上来了,上面这个 21912 次/天是 blog.ymanz.com 这个域名站点的抓取频次,还有一个抓取频次便是我博客的域名 imydl.com 的抓取频次是 17982 次/天。两个站点相叠加那便是每天靠近 40000 次的抓取频率,均匀到每分钟就要接待近 30 次的要求,无语了!
这负载给拉的是满满的,要知道明月的做事器配置可是早期阿里云 ECS 最低配置:1H1G 哦
我这小驴车怎么经得起这么折腾,以是明月创造问题后赶紧办理,首先是取消掉 blog.ymanz.com 的解析(这是明月博客早期的域名,目前看来只能是放弃解析跳转了),其次调低百度站长平台里 blog.ymanz.com 和 imydl.com 站点的抓取频次每天上限:
由于 blog.ymanz.com 是个废弃域名了,以是直接调度到最低值。
经由上述操作后,随后的几个小时百度蜘蛛爬虫来访的频率降下来了,做事器的负载也难得的规复如初:
看到这久违的负载值,这几天的忙活没有空费,这次经历下来让明月对付运维这个事情的认识又加深了不少,这是一个随时都要面对寻衅,并且,当面临寻衅的时候要平心静气的剖析、整理、思考后办理问题并制订出详细的预防方案并履行,如果您是一个网站运营者并不是很懂做事器运维,那么明月建议您可以考虑一下运维外经办事,比如明月自己就有供应这种有偿做事哦