利用方法很大略:
先下载 Simple HTML DOM 库: https://simplehtmldom.sourceforge.io/将下载的库文件(simple_html_dom.php)包含到你的代码中:include 'simple_html_dom.php';
3. 利用 Simple HTML DOM 解析 HTML 文档:
// 接上面代码,获取到抓取到的完全的HTML代码$html = $output;// 查找文档中的所有链接foreach($html->find('a') as $element) echo $element->href . '<br>';// 查找文档中所有图片foreach($html->find('img') as $element) echo $element->src . '<br>';// 查找文档中第一个 h1 标签$h1 = $html->find('h1', 0);echo $h1->innertext;
通过 Simple HTML DOM,您可以方便地提取 HTML 文档中的各种元素、属性、文本等信息,也可以方便地修正 HTML 文档,大大简化了爬虫开拓的难度。
如果您想理解更多关于 Simple HTML DOM 的信息,可以参考其官方文档:https://simplehtmldom.sourceforge.io/manual.htm