Anti-Anti-Spider:反爬虫破解资源三

越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反爬虫的代码仓库。该项目运用请求伪造浏览器伪造,浏览器自动化,图像处理,ip处理等方式进行反爬虫技术的通用化代码库,方便未来快速开发。体验盒子收集了多个反爬虫项目,查看更多反爬虫

该反爬虫重点项目

  1. 验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解--98%成功率}
  2. 代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用}
  3. 代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫}
  4. 爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博, 淘宝采集}
  5. ip更换技术 {代理,tor,adsl}
  6. 请求伪造 {phantomjs,requests,selenium}
  7. phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时}
  8. selenium {伪造请求头,支付宝模拟登陆}
  9. UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}

仓库:https://github.com/luyishisi/Anti-Anti-Spider