模块:Requests、Beautifulsoup、LXML
模块安装 :pip install requests 、pip install beautifulsoup4、pip install lxml
IDE:pycharm
网站剖析
通过requests库来看看这个页面的源代码:
按下F12查看其源代码,按照其布局创造 :
每个笑话对应个中一个<li>标签,剖析得每个笑话展开全文的网址藏在href当中,我们只须要获取href就能得到笑话的网址
通过以上代码,成功得到第一页所有笑话的网址后缀:
大略剖析笑话页面html内容后,接下来获取一个页面全部笑话的内容:
学习群:643692991
效果: