模块:Requests、Beautifulsoup、LXML

模块安装 :pip install requests 、pip install beautifulsoup4、pip install lxml

IDE:pycharm

笑话网站html模板Python爬取笑话网站 Docker

网站剖析

通过requests库来看看这个页面的源代码:

点开一个笑话查看全文,你会创造每一个都有一个?.html

按下F12查看其源代码,按照其布局创造 :

每个笑话对应个中一个<li&gt;标签,剖析得每个笑话展开全文的网址藏在href当中,我们只须要获取href就能得到笑话的网址

通过以上代码,成功得到第一页所有笑话的网址后缀:

大略剖析笑话页面html内容后,接下来获取一个页面全部笑话的内容:

学习群:643692991

效果: