地址:https://github.com/derekhe/ProxyPool

介绍

《爬虫实战:从数据到产品》一书中,我讲到了一个基于ProxyBroker的代理池。经过我的长时间的实践,这个代理池用起来非常的方便和稳定。

基于ProxyBroker,增加了中国区域的代理资源。并引入了docker-compose,能够快速的方便的开始代理的抓取。

用法

docker-compose up

然后浏览器打开http://localhost:8080/proxy.json 即可得代理列表。每个代理都经过类型的验证,代理资源会随着时间增长。每个代理的有效期为一天时间。大概一天有1万左右的有效代理。

由于很多代理资源在中国无法访问的网站,部署在国内的服务器上会影响资源的获取,所以推荐将服务器部署到国外的服务器。服务器推荐使用DigitalOcean,我的多个服务器都在SFO2区域,非常的稳定。