引言

偶然发现一个免费ss分享网站,本以为简单的url请求即可获取数据。但是没想到在网站的反爬机制很严格,这反而激起了我的好奇心。

不过对于爬虫经验技术来说,是一个很好的学习检验的机会。

爬虫整体概况

数据获取的核心是围绕2个http请求

方法 地址 参数 备注
get url 响应源码中有可用信息
post url1 a,b,c 返回加密数据文本

主要功能方法

绕过DDOS保护(Cloudflare)

简单来讲cloudflare就是通过js验证访问是否来至真正的web浏览器。

解决方法:使用任意一个第三方库:cloudflare-scrape 或者 cloudflare-scrape-js2py
这2个库方法通用,安装cloudflare-scrape-js2py方法如下:

1
2
$ git clone https://github.com/VeNoMouS/cloudflare-scrape-js2py.git
$ sudo python3 setup.py install

 

主要代码如下:

1
2
3
4
5
6
session = requests.session()
scraper = cfscrape.create_scraper(sess=session)
scraper = cfscrape.create_scraper(delay=11)

req = scraper.get(url)
html = req.text