通过这个程序,你可以轻松的把别人网站上一个、几百个页面,或者一个页面的某些内容拿到你自己本地。
当然,想用5行代码,你须要做些准备事情。比如框架、数据库等等。
我们这儿利用php+mysql+PHPquery+arphp的方案。
1、phpquery可以到https://blog.csdn.net/summerxiachen/article/details/78681674看利用方案。
2、arphp可以到arphp.24di.cn查看部分利用方法。
当然你可以不看这个文档,或者利用其他框架,或者不用框架,也能写这个程序。
详细代码:
require('phpQuery/phpQuery.php');//加载这个框架$eg1=phpQuery::newDocumentFile(\公众http://www.whu.edu.cn/tzgg.htm\"大众);//将你须要的抓取的页面对象化$res = pq(\"大众ul,li\"大众)->html().\"大众<br>\"大众;//获取页面中某个工具的html数据$myfile = fopen(\"大众newfile.txt\公众, \公众w\"大众) or die(\"大众不能打开文件\"大众);//打开一个文件fwrite($myfile, $res);//将页面内容写入txt
当然,你可以可以建个数据库,然后将内容放入数据库。
就这么五行,就可以基本完成一个页面内容的抓取。当然,更繁芜的多页面抓取、单页面内容遍历和内容筛选、https内容或者防网站封IP等问题,可以更深入的学习。