php匹配htmlPHP采集指定内容轻松实现数据妄想

一、安装

在利用PHP采集工具之前，须要先安装干系环境。
建议利用XAMPP或WAMPP这样的集成开拓环境，可以轻松搭建一个本地做事器，并且内置了PHP环境。

二、根本语法

php匹配htmlPHP采集指定内容轻松实现数据妄想 RESTful API

在进行PHP采集时，须要利用到以下几个函数：

1. file_get_contents()：获取指定URL的HTML内容；

2. preg_match_all()：通过正则表达式匹配指定HTML内容；

3. foreach()：遍历匹配到的结果。

以下是一个大略示例：

php$url =";;$content = file_get_contents($url);preg_match_all('/<a href="(.?)">(.?)<\/a>/s',$content,$matches);foreach ($matches[2] as $value){ echo $value ."<br>";}

以上代码会获取中所有链接笔墨，并输出到页面上。

三、选择器

除了正则表达式外，还可以利用选择器来匹配HTML内容。
PHP采集工具中常用的选择器有Simple HTML DOM和QueryList。

Simple HTML DOM是一个纯PHP的解析HTML的类库，可以通过类似jQuery的语法来匹配HTML内容。
以下是一个示例：

phpinclude 'simple_html_dom.php';$url =";;$html = file_get_html($url);foreach ($html->find('a') as $value){ echo $value->plaintext ."<br>";}

以上代码也会获取中所有链接笔墨，并输出到页面上。

QueryList是基于GuzzleHttp封装的PHP采集工具，支持CSS选择器、XPath等多种选择器语法。
以下是一个示例：

phpuse QL\QueryList;$url =";;$html = QueryList::get($url)->find('a')->texts();foreach ($html as $value){ echo $value ."<br>";}

以上代码同样会获取中所有链接笔墨，并输出到页面上。

四、假造User-Agent

有些网站为了防止爬虫，会检测User-Agent信息。
此时须要在要求头中添加一个随机的User-Agent信息，以仿照浏览器访问。

以下是一个示例：

php$url =";;$options =[ 'http'=>[ 'method'=>'GET', 'header'=>'User-Agent:a9694ebf4d02ef427830292349e3172c/5.0(Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' ]];$context = stream_context_create($options);$content = file_get_contents($url, false,$context);

以上代码会在要求头中添加一个随机的User-Agent信息，并获取的HTML内容。

五、处理编码

在采集HTML内容时，有些网站会利用不同的编码办法。
此时须要对采集到的内容进行编码转换，以精确显示中文或其他分外字符。

以下是一个示例：

php$url =";;$content = file_get_contents($url);$content = iconv('gb2312','utf-8',$content);

以上代码会将的HTML内容从gb2312编码转换为utf-8编码。

六、处理分页

在采集多页数据时，须要处理分页问题。
一样平常可以通过循环遍历来实现。

以下是一个示例：

phpfor ($i=1;$i<=10;$i++){ $url ="{$i}"; $content = file_get_contents($url); //处理每一页的数据}

以上代码会循环遍历1~10页，获取每一页的数据。

七、处理非常

在采集过程中，可能会涌现网络非常、页面不存在等问题。
此时须要对非常进行处理，以担保程序正常运行。

以下是一个示例：

php$url =";;$content =@file_get_contents($url);if ($content === false){ //处理非常}

以上代码会在获取HTML内容时加上@符号，忽略掉所有缺点信息。
如果获取失落败，则会进入非常处理流程。

八、利用代理

在进行大规模采集时，可能会被目标网站封禁IP。
此时可以利用代理IP来避免被封禁。

以下是一个示例：

php$url =";;$options =[ 'http'=>[ 'proxy'=>'tcp://127.0.0.1:8080', 'request_fulluri'=> true ]];$context = stream_context_create($options);$content = file_get_contents($url, false,$context);

以上代码会在要求中添加一个代理IP，并获取的HTML内容。

九、常见问题

1.如何处理乱码问题？

可以利用iconv()函数对采集到的内容进行编码转换。

2.如何处理页面重定向问题？

可以在要求头中添加"Location"信息，指定重定向后的URL地址。

3.如何处理SSL证书问题？

可以在选项中添加verify_peer和verify_host参数，以跳过SSL证书验证。

4.如何处理页面加载速率慢的问题？

可以利用curl_multi_init()函数同时发起多个要求，以提高采集效率。

5.如何处理页面js渲染的问题？

可以利用无头浏览器工具，如PhantomJS、Selenium等，来仿照浏览器行为，获取动态天生的内容。