乐愚社区Beta

 软件逆向  >  Web Scraper [轻型爬虫]---简易教程03

Web Scraper [轻型爬虫]---简易教程03

一本时空  L0  • 2020-05-21 • 回复 1 • 只看楼主举报    

以后更新了,会补链接上去





上期我们主要是实现了爬取多个元素,电影名,排名,评分。有的小伙伴会发现爬取的数据只是当前这
一页的数据,那么想要爬取后面的内容,应该怎么弄? 那么,这就是我们这次所要解决的问题!!


我在第一篇里面就说过,爬虫的本质就是网络请求和数据处理,然后在网页上面寻找规律
重点是规律 规律 规律 (重要的事情说三遍)

一般寻找规律首先从网址开始分析,因为一个好的程序员一般都会去用一定的规律去进行开发,不然他
离职了,后面的人想接手都没办法接,不好意思说偏了。

正式开始本次内容



首先我们可以去查看豆瓣top250 第一页的地址,然后再去查看第二页的地址,第三页的地址。


通过分析,我们可以得出来一个规律,那就是每下一页 start=* (* 代表数字)* 就会增加25,为什么会增加
25,我的理解是一页有25个排名,所以会增加25,这里说一下 0 在很多地方也是代表一个排名,表示是第一
个。
既然规律找到了,那这个问题就比较好解决了,Web Scraper 对这种分页链接是数字分页来获取网页的
提供了一个范围指定器。


例如:
我们想抓取4个网页 https://www..com/book/1



1条回帖
还没注册帐号?快来注册社区帐号,和我们一起嗨起来!
关于本社区

集各类兴趣爱好于一身的轻量化交流社区,在此您可以和他人一起分享交流您觉得有价值的内容,社区鼓励大家发表原创内容,为社区添砖加瓦!

发帖奖励 → 社区版规 → 招聘版主 →
推荐版块
扫描二维码下载社区APP
回到顶部