接下来为大家先容Python爬取youku视频的播放链接,直接放在网页就可以看了,废话不多说,直接上代码吧
首先导入库
import randomimport reimport requests
发起要求
def get_request(url, user_agent): '''参数引入及头信息''' if len(user_agent) < 10: user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:39.0) Gecko/20100101 Firefox/39.0' # 此处修正头字段, headers = { 'Host': \公众v.youku.com\"大众, \公众Accept\公众: \"大众text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8\公众, \公众Accept-Encoding\公众: \公众gzip, deflate, sdch\"大众, \"大众Accept-Language\"大众: \公众zh-CN,zh;q=0.8\"大众, 'Cache-Control': 'no-cache', \"大众Connection\公众: \公众keep-alive\"大众, \"大众User-Agent\"大众: user_agent, 'Referer': 'http://www.youku.com/' } try: html = requests.get(url, headers=headers, timeout=20).text # print html return html except Exception, e: print(Exception, e) return -1
学习从来不是一个人的事情,要有个相互监督的伙伴,事情须要学习python或者有兴趣学习python的伙伴可以私信回答
主函数实行
if __name__ == '__main__': # 此url为任意一个具有某视频播放窗口的页面 url = \"大众http://v.youku.com/v_show/id_XMTgzNDI0MjkzNg==.html?from=y1.3-movie-grid-1095-9921.86985-107667.1-1&spm=a2hmv.20009921.yk-slide-107667.5~5~5~5!2~A#paction\"大众 # 导入数据集并随机获取一个User-Agent user_agent_list = [] f = open('user_agent.txt', 'r') for date_line in f: user_agent_list.append(date_line.replace('\r\n', '')) user_agent = random.choice(user_agent_list) # 发起要求 html_body = get_request(url, user_agent) print(re.findall('http://player.youku.com/player.php/sid/[A-Za-z0-9=]/v.swf', html_body))
将此链接放在浏览器中可以直接播放,虽然有广告...但是还是能实现的,欢迎大家一起学习,共同互换