使用phantomjs采集运用了强制跳转与页面等待等反爬技术的网站

现在在维护一个反反爬虫技术的项目,有朋友提交了一个采集网站,普通请求和scrapy都无法拿到数据,我来尝试了一波

仓库地址在:https://github.com/KCPClub/Anti-Anti-Spider   本次代码在phantomjs目录下

确保你安装好了phantomjs 工具,采集目标是:http://www.shilladfs.com/estore/kr/zh/Domestic-Brand/Skin-Care/Basic-Skin-Care/p/359582

首先是用代码一来来尝试运用js解析能力的请求: https://github.com/KCPClub/Anti-Anti-Spider/blob/master/phantomjs/get_page_Source_Code/request.js

运行:


但是这个的返回的情况不乐观,还是一样很短的数据。

再使用截图功能加上延时

使用代码二:https://github.com/KCPClub/Anti-Anti-Spider/blob/master/phantomjs/get_page_printscreen/rasterize.js

 这次做延时处理

完成采集,页面的截图如下:

2016-11-02-11-59-01%e5%b1%8f%e5%b9%95%e6%88%aa%e5%9b%be

打赏支持我写出更多好文章,谢谢!

打赏作者

打赏支持我写出更多好文章,谢谢!

1 3 收藏 2 评论

关于作者:路易十四

少年程序猿,从事数据采集挖掘方面:个人博客,www.urlteam.org,邮箱:a83533774@gmail.com主要技能树:python,爬虫,linux,web前端,ACM,骑行。 个人主页 · 我的文章 · 9 ·   

相关文章

可能感兴趣的话题



直接登录
最新评论
跳到底部
返回顶部