乐愚社区Beta

 编程语言  >  [Python]用python实时爬取某资源站最新资源

[Python]用python实时爬取某资源站最新资源

Walker  管理员   L12  • 2018-09-07 • 回复 15 • 最后编辑于2018-09-07 01:09 • 只看楼主举报    

因为最近在用PHP练习写个网站,(以后应该开源),网站写得差不多了,但是网站没有内容,所以打算去爬别人的网站,充实一下自己的网站,去爬了某个资源网,主要是爬最新的资源。经过测试,只要是用相同模板的网站都可以爬。
其实很多网站都差不多,随便写个正则想爬什么都可以。

# -*- coding: utf-8 -*-
import requests,time,re     #一共三个模块,没装的先装
import sys
 
reload(sys)
sys.setdefaultencoding('utf-8')
def zyw():
    while(True):
        url='https://www.525zyw.com/'  #爬的网站URL
        html=requests.get(url).text    #获取网站的首页源代码
        re_url=re.findall('<li class="column half"><div class="lbbt_c00">(.*?)</div>.*?</li>',html,re.S) #比配最新资源
        list_r=''
        for i in re_url:
            tiem=re.findall('.*?>(.*?)</span>.*?',i,re.S)[0]   #这里的四个正则主要是进一步的提取我们需要的东西
            src=re.findall('.*?<img src="(.*?)"/>.*?',i,re.S)[0]
            href=re.findall('.*?<a href="(.*?)".*?',i,re.S)[0]
            title=re.findall('.*?title="(.*?)".*?',i,re.S)[0]
            res='<span style="font-weight: bold;">%s</span><img src="%s%s"/> <a href="%s%s" title="%s" style="color:#000000;" target="_blank">%s</a><br>'%(tiem,url,src,url,href,title,title)
            list_r=list_r+res   #经过上面的拼接,这里是所有的内容加入一个字符串
        f=open('index.html','w')   #打开文件
        f.write(list_r)    #把字符串写入文件
        f.close()
        time.sleep(3600)    #这里是每隔1个小时去爬一次,测试时先注释掉
 
if __name__ == '__main__':
    zyw()    #调用



15条回帖
伍贰壹  L0  评论于
(1)  回复(1) 1#
链接呢
Walker 楼主 :没有链接,代码已经全部贴出来了
发表在2018-09-07 回复
  
:)
狐尾松  L5  评论于
(0)  回复(1) 2#
链接呢?
Walker 楼主 :没有链接,代码已经全部贴出来了
发表在2018-09-07 回复
  
:)
伍贰壹  L0  评论于
(0)  回复(0) 4#
不会用爬虫
软件资源大全  L0  评论于
(0)  回复(1) 5#
看到论坛帖子招版主,我你看怎么样?那个招募版主的帖子无法回复,只能在你这留言
Walker 楼主 :不能回复是目前暂时不招,等招募的时候会发公告通知的~
发表在2018-09-07 回复
  
:)
仙道吾邪君  L0  评论于
(0)  回复(0) 6#
这爬虫好厉害的样子
wanvivo  L3  评论于
(0)  回复(1) 7#
这是怎么回事?

寒心烟雨情 :代码量说了,要装三个模块,好像你的代码里也不支持有中文,你在手机上运行,错误的地方也不知道还有没有其他。
发表在2018-09-14 回复
  
:)
DDUU  L0  评论于
(0)  回复(3) 8#
我要筛选 <p>文字</p> 标签,而且根据有无特定的<p>中的文字来筛选 打印出<p>标签,怎么筛选
寒心烟雨情 :写个正则,提取里面的文字,然后对文字做判断
发表在2018-09-17 回复
DDUU :回复 寒心烟雨情:有没有手机软件有类似谷歌浏览器的检查功能
发表在2018-09-17 回复
寒心烟雨情 :回复 DDUU:这个就不知道了,我都是用电脑,你可以获取源码下来分析
发表在2018-09-17 回复
  
:)
还没注册帐号?快来注册社区帐号,和我们一起嗨起来!
关于本社区

集各类兴趣爱好于一身的轻量化交流社区,在此您可以和他人一起分享交流您觉得有价值的内容,社区鼓励大家发表原创内容,为社区添砖加瓦!

发帖奖励 → 社区版规 → 招聘版主 →
推荐版块
扫描二维码下载社区APP
回到顶部