[Python]用python实时爬取某资源站最新资源 |
|
Walker
管理员
L12
• 2018-09-07 • 回复 15 • 最后编辑于2018-09-07 01:09 • 只看楼主
• 举报
|
因为最近在用PHP练习写个网站,(以后应该开源),网站写得差不多了,但是网站没有内容,所以打算去爬别人的网站,充实一下自己的网站,去爬了某个资源网,主要是爬最新的资源。经过测试,只要是用相同模板的网站都可以爬。
其实很多网站都差不多,随便写个正则想爬什么都可以。
# -*- coding: utf-8 -*-
import requests,time,re #一共三个模块,没装的先装
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
def zyw():
while(True):
url='https://www.525zyw.com/' #爬的网站URL
html=requests.get(url).text #获取网站的首页源代码
re_url=re.findall('<li class="column half"><div class="lbbt_c00">(.*?)</div>.*?</li>',html,re.S) #比配最新资源
list_r=''
for i in re_url:
tiem=re.findall('.*?>(.*?)</span>.*?',i,re.S)[0] #这里的四个正则主要是进一步的提取我们需要的东西
src=re.findall('.*?<img src="(.*?)"/>.*?',i,re.S)[0]
href=re.findall('.*?<a href="(.*?)".*?',i,re.S)[0]
title=re.findall('.*?title="(.*?)".*?',i,re.S)[0]
res='<span style="font-weight: bold;">%s</span><img src="%s%s"/> <a href="%s%s" title="%s" style="color:#000000;" target="_blank">%s</a><br>'%(tiem,url,src,url,href,title,title)
list_r=list_r+res #经过上面的拼接,这里是所有的内容加入一个字符串
f=open('index.html','w') #打开文件
f.write(list_r) #把字符串写入文件
f.close()
time.sleep(3600) #这里是每隔1个小时去爬一次,测试时先注释掉
if __name__ == '__main__':
zyw() #调用