关于微信爬虫的一点思考-第一篇

Apr 21, 2017 · 1 min read ·

关于微信爬虫网上出现过很多教程，无外乎是使用搜狗或者北大某网站，以前做过一个爬虫，貌似每天也能爬个2500个左右的微信号（5代理线程，20小时左右），使用scrapy框架+收费代理实现。

最近由于搜狗的限制以及一直以来的搜狗以及微信的反爬虫限制，导致爬虫经常需要更新，因此大致想了一下，暂时考虑了以下方法.

由以前的全自动方式改为半自动方式
使用手机扫描进入微信网页版的方式，即后台使用python模拟网页登录，然后使用相应的网页端一样的api进行内容抓取。
暂时未测试关于抓取频率的问题，是否会导致账号被锁
另一途径就是根据前面所获得的用户id，微信biz以及一系列数据项，进行模拟手机端的数据抓取
此外，关于中间代理服务器的脚本功能，也值得一试，比如fiddle，但此工具只支持windows，在mac下使用mono执行奇慢无比（MBP 2016 高配版），也许需要寻找其他的能支持命令行下的且支持自定义脚本导出类似cookie以及相关参数的支持https的调试服务器（执行中间人功能），好像mimtproxy啥的，但是还没测试。
使用adb，运行脚本，自动化运行android微信，来实现自动登录（暂时还存在问题，微信客户端无法通过读取相册中的二维码图片来进行登录，且相册直接保存也存在刷新过慢的问题（使用adb保存图片后好后相册无法立即看到新增加的图片）。需要做进一步的测试。

以上是暂时的一点想法，