大家好,欢迎来到IT知识分享网。
一个免费ss网站的数据爬取过程
引言
偶然发现一个免费ss分享网站,本以为简单的url请求即可获取数据。但是没想到在网站的反爬机制很严格,这反而激起了我的好奇心。
不过对于爬虫经验技术来说,是一个很好的学习检验的机会。
爬虫整体概况
数据获取的核心是围绕2个http请求:
方法 | 地址 | 参数 | 备注 |
---|---|---|---|
get | url | 无 | 响应源码中有可用信息 |
post | url1 | a,b,c | 返回加密数据文本 |
主要功能方法
绕过DDOS保护(Cloudflare)
简单来讲cloudflare就是通过js验证访问是否来至真正的web浏览器。
解决方法:使用任意一个第三方库:cloudflare-scrape 或者 cloudflare-scrape-js2py
这2个库方法通用,安装cloudflare-scrape-js2py方法如下:
1 |
$ git clone https://github.com/VeNoMouS/cloudflare-scrape-js2py.git |
主要代码如下:
1 |
session = requests.session() |
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/144797.html