http://pestisida.id/simpes_app/rekap_formula_nama.php?s_keyword=&rekap_formula_nama1Page=1

可以看到,我们要获取统共74页的数据,而网页中的参数则代表了不同的参数,在网址中的末了一个参数便是页码数,将“1”改成1-74的数字便是我们要爬取的网址。

2、爬取单个网页数据

1)打开Excel 2019,依次点击“数据”→“自网站”

php爬取网页数据2分钟带你学会收集爬虫Excel批量爬取网页数据具体图文版 Python

2)在弹出的“从Web”对话框中选“高等”,在“URL部分”第一栏中输入不含有参数的网址,如:http://pestisida.id/simpes_app/rekap_formula_nama.php?s_keyword=&rekap_formula_nama1Page=,在第二栏中输入1表示抓取第一页的数据,末了点击“确定”。

如果有多个参数,则每个参数设置为一栏。

3)在弹出的“导航器”对话框中,选中左边须要的数据,右边可以预览到抓取的数据,末了点“编辑”,这样就可以抓取到一页网页的数据了。

3、爬取多个网页数据

1)在弹出的“Power Query编辑器”的编辑界面中,依次选择“开始”→“高等编辑器”,在编辑框的“let”前面加入语句“(p as number) as table =>”,并将“源”后面的网页参数“1”换成“(Number.ToText(p))”(不含引号),检讨没有语法缺点后点击“完成”,返回“Power Query编辑器”的编辑界面。

2)在返回的“Power Query编辑器”的编辑界面中,点击左边的“查询”栏上的箭头“>”,可以修正函数的名称,如“Indonesia Pesticide”。

3)依次点击“开始”→“新建源”→“其他源”→“空查询”,在函数编辑栏中输入“” ,即要爬取的网页数,回车,天生序列,末了点中任意数列的值,选择“到表”,在弹出的“到表”对话框中点击确定即可。

4)选中左边栏的“查询1”,依次点击“添加列”→“调用自定义函数”,弹出“调用自定义函数”对话框中,在“功能查询”下拉菜单中选择刚才命名的函数“Indonesia Pesticide”,其它的会自动填写,点击“确定”就开始爬取网页数据了。

4、保存网页爬取数据

1)依次点击右边工具栏的“查询设置”→“运用的步骤”→“已调用自定义函数”,在单元格的右上角点击双箭头图标,在弹出的对话框中,如果提示“列表可能不完全”则点击右侧的“加载更多”,在弹出的“插入步骤”对话框中选择“插入”。

末了点击关闭按钮,在弹出的“Power Query编辑器”对话框中选择“保留”即可保存爬取的数据到Excel表格中了。