关于微信爬虫的一点思考-第一篇
关于微信爬虫网上出现过很多教程,无外乎是使用搜狗或者北大某网站,以前做过一个爬虫,貌似每天也能爬个2500个左右的微信号(5代理线程,20小时左右),使用scrapy框架+收费代理实现。
最近由于搜狗的限制以及一直以来的搜狗以及微信的反爬虫限制,导致爬虫经常需要更新,因此大致想了一下,暂时考虑了以下方法.
- 由以前的全自动方式改为半自动方式
- 使用手机扫描进入微信网页版的方式,即后台使用python模拟网页登录,然后使用相应的网页端一样的api进行内容抓取。
- 暂时未测试关于抓取频率的问题,是否会导致账号被锁
- 另一途径就是根据前面所获得的用户id,微信biz以及一系列数据项,进行模拟手机端的数据抓取
- 此外,关于中间代理服务器的脚本功能,也值得一试,比如fiddle,但此工具只支持windows,在mac下使用mono执行奇慢无比(MBP 2016 高配版),也许需要寻找其他的能支持命令行下的且支持自定义脚本导出类似cookie以及相关参数的支持https的调试服务器(执行中间人功能),好像mimtproxy啥的,但是还没测试。
- 使用adb,运行脚本,自动化运行android微信,来实现自动登录(暂时还存在问题,微信客户端无法通过读取相册中的二维码图片来进行登录,且相册直接保存也存在刷新过慢的问题(使用adb保存图片后好后相册无法立即看到新增加的图片)。需要做进一步的测试。
以上是暂时的一点想法,