利用火车头采集规则采集有分页的数据 分页便是目标网站上一个文章分为好几页,我们须要设置规则将其全部采到。火车头采集规则采集要点:采集规则要对每个分页都适用,分页规则如果是全部列出,只要第一个页面的分页规则就可以了。如果是高下页,每个页面的分页规则也要都适用。【看图二,火车头采集规则,批量自动采集发布】
我们先看一下,如果分页有两个,前一页[1] [2]下一页,火车头采集规则要做的是要使所写的规则在两个页面中都可以正常采到内容,写个规则,测试第一页,成功获取内容,然后改写网址为第二个,测试,同样可以得到我们要的内容,那么,解释这一步你已经成功了。进入下一步。火车头采集规则是这样来写的,两个页面都通过。【看图三,火车头采集规则,一键设置,高效大略】
现在我们看分页这里的火车头采集规则设置,全部列出是在第一页或每一页上都有全部的颁布文章的网址,高下页是没有将全部的列出。我们这个规则里全部列出。因此,我们只要在火车头采集规则第一页里找好包含所有网址的区域就可以了。【看图四,火车头采集规则,采集必备】
<td width="555" colspan="3" align="CENTER">
<span style="color:#999999">前一页</span>
<a href="/graphics/hq/gz/0802/1226877.html" >
[<span style="font-weight: bold">1</span>]</a>
<a href="/graphics/hq/gz/0802/1226877_1.html" >[2]
</a> <a href="/graphics/hq/gz/0802/1226877_1.html" >
下一页</a> </td>
把稳,火车头采集规则只能采集代码,不能下载文件.由于这个标签数据是在网址列表里得到的,在测试规则时无法对它进行编辑,也便是无法实行一些过滤更换操作,设置完成后,文章内容采集界面就自动列出我们在列表页设置好的标签。
火车头采集规则就不多说了,比较大略,本日关于火车头采集规则的采集和设置就写到这里。这里就不说更多采集规则了,只是说一下火车头采集规则采集文件的详细配置该如何设置,详细操作紧张是在“内容采集规则”里面进行设置,可以通过图片内来结合阅读。