
qq:2852782587
在线客服,实时响应
在线咨询
在线客服,实时响应
客服电话
18602019646网络爬虫我们除了要用代理ip来解决ip限制的情况,我们还可以用分布式爬虫来提高效率。分布式爬虫是怎么来布局的?
分布式系统并不是爬虫的本质,也并不是必需的,对于互相独立、不会有通信的任务就可手动对任务切分,随后在众多机器上各自执行,降低每台机器的工作任务,费时就会加倍降低。
比如说有200W个网页页面待爬,可以用5台机器各自爬互不反复的40W个网页页面,相比之下单机费时就缩短了5倍。
可是如果存在着须要通信的状况,比如说一个变动的待爬队列,每爬一次这个队列就会产生变化,纵然切分任务也就有交叉反复,因为各个机器在程序运行时的待爬队列都不一样了——这种情形下只能用分布式系统,一个Master存储队列,其他众多Slave各自来取,这样共享一个队列,取的情形下互斥也不会反复爬取。scrapy-redis是一款用得比较多的分布式爬虫框架。
如果大家采集数据的数量是比较多的,那么就可以使用分布式爬虫。