htmlSQL
这是一个非常有趣的php框架,通过这个框架你可以利用类似sql的语句来剖析网页中的节点。 通过这个库,我们可以不用写繁芜的函数和正则表达式就可以获取到任意想要的节点。 它供应了相对较快的解析,但是功能有限。 它的缺陷便是这个库已经不在掩护了,不过利用它可能会对你的爬虫理念有所提升。
Buzz
一个非常轻量级的爬虫库,它类似于一个浏览器,你可以非常方便地操作cookie,设置要求头。 它拥有非常完善的测试文件,因此你可以安心无忧地利用它。 此外,它还支持http2的server push,你可以更快速的吸收内容。
Guzzle严格意义来讲,它并不是一个爬虫框架,它是要给http要求库,它封装了http要求,它具有一个大略的操作办法,可帮助您构建查询字符串,POST要求,流式传输大型上传文件,流式传输大型下载文件,利用HTTP cookie,上传JSON数据等。 它可以在同一接口的帮助下发送同步和异步要求。 它利用PSR-7接口处理要求,相应和流。这使您可以在Guzzle中利用其他PSR-7兼容的库。 它可以抽象出底层的HTTP传输,使您能够编写环境并传输不可知代码。即,对cURL,PHP流,套接字或非壅塞事宜循环没有硬性依赖。
request
如果你打仗过python,就一定知道python中有个非常好用的http要求库,它便是request,而这个库便是php版的它,可以说它参考了request的所有精华,让它也变得非常优雅高效。 通过要求,您可以发送HEAD,GET,POST,PUT,DELETE和PATCH HTTP要求。 借助要求,您可以添加标头,表单数据,多部分文件和带有大略数组的参数,并以相同的办法访问相应数据。
querylist利用类似jQuery选择器来做采集,告别繁芜的正则表达式,可以非常方便的操作DOM,具有Http网络操作能力、乱码办理能力、内容过滤能力以及可扩展能力;
可以轻松实现诸如:仿照上岸、假造浏览器、HTTP代理等意繁芜的网络要求;拥有丰富的插件,支持多线程采集以及利用PhantomJS采集JavaScript动态渲染的页面。
snoopySnoopy是一个php类,用来仿照浏览器的功能,可以获取网页内容,发送表单,可以用来开拓一些采集程序。 它封装了很多常用且实用的功能,比如获取全部连接,获取全部纯文本内容等,它的表单仿照是它的一大亮点。
phpspider国人开拓的php爬虫框架,作者曾用它爬取了知乎的百万用户,可以说框架在实行效率上还是非常不错的。 此外,作者供应了一个非常好用的命令行工具,通过工具,我们可以非常方便的支配和查看我们的爬虫效果和进度。