| 
                         | 
                    
                                                Web Scraper [轻型爬虫]---简易教程03 | 
                
| 
                        一本时空
                                                     L0 
                                                •  2020-05-21                        • 回复 1                        • 只看楼主
                        • 举报
                           
                                                 | 
                
                                以后更新了,会补链接上去
上期我们主要是实现了爬取多个元素,电影名,排名,评分。有的小伙伴会发现爬取的数据只是当前这
一页的数据,那么想要爬取后面的内容,应该怎么弄? 那么,这就是我们这次所要解决的问题!!
我在第一篇里面就说过,爬虫的本质就是网络请求和数据处理,然后在网页上面寻找规律
重点是规律 规律 规律 (重要的事情说三遍)
一般寻找规律首先从网址开始分析,因为一个好的程序员一般都会去用一定的规律去进行开发,不然他
离职了,后面的人想接手都没办法接,不好意思说偏了。
正式开始本次内容
首先我们可以去查看豆瓣top250 第一页的地址,然后再去查看第二页的地址,第三页的地址。
通过分析,我们可以得出来一个规律,那就是每下一页 start=* (* 代表数字)* 就会增加25,为什么会增加
25,我的理解是一页有25个排名,所以会增加25,这里说一下 0 在很多地方也是代表一个排名,表示是第一
个。
既然规律找到了,那这个问题就比较好解决了,Web Scraper 对这种分页链接是数字分页来获取网页的
提供了一个范围指定器。
例如:
我们想抓取4个网页 https://www..com/book/1


            
            上期我们主要是实现了爬取多个元素,电影名,排名,评分。有的小伙伴会发现爬取的数据只是当前这
一页的数据,那么想要爬取后面的内容,应该怎么弄? 那么,这就是我们这次所要解决的问题!!
我在第一篇里面就说过,爬虫的本质就是网络请求和数据处理,然后在网页上面寻找规律
重点是规律 规律 规律 (重要的事情说三遍)
一般寻找规律首先从网址开始分析,因为一个好的程序员一般都会去用一定的规律去进行开发,不然他
离职了,后面的人想接手都没办法接,不好意思说偏了。
正式开始本次内容
首先我们可以去查看豆瓣top250 第一页的地址,然后再去查看第二页的地址,第三页的地址。
通过分析,我们可以得出来一个规律,那就是每下一页 start=* (* 代表数字)* 就会增加25,为什么会增加
25,我的理解是一页有25个排名,所以会增加25,这里说一下 0 在很多地方也是代表一个排名,表示是第一
个。
既然规律找到了,那这个问题就比较好解决了,Web Scraper 对这种分页链接是数字分页来获取网页的
提供了一个范围指定器。
例如:
我们想抓取4个网页 https://www..com/book/1

