[ 登录 ] - [ 注册 ] | 开发者(推广)分成 无忧代理IP最新上线 | 代码示例 | IP测试视频 |

目前反爬虫机制有哪些手段,使用代理ip来规避的做法用nodejs具体要怎么做?

作者:数据无忧   时间:2017-02-03 20:42:19

问题描述:目前我初学爬虫,尽管简单的数据能抓下来,但是看了很多文章,里面有提到一些反爬虫的机制的,这里面都提到了用ip来反爬虫,第二篇文章也提到了用代理池来避免,但是还是不大明白,这些代理ip如果用nodejs要怎么弄?

知乎网友回答(https://www.zhihu.com/question/26804984
根据个人经验,简单的反爬虫技术有:
1. 判断headers 中的参数,比如user-agent 不是浏览器的不允许访问;refer 不是来源于特定域名的也不行(反盗链常用技术)。这是最常见的反爬虫技术。

2. cookies 检查用户cookies,需要登录的网站常采用这种技术。比如论坛、微博、雪球等。

以上两个可以通过手动设计headers 和cookies 搞定,python 程序员使用requests 可以很方便解决。

还有一些比较复杂的技术:
1. 数据通过ajax 返回后通过js 混淆处理,而js 处理过程可以写的很复杂,以至于爬虫程序员没法分析。
2. 数据通过flash 和服务器端交互。 例如船讯网http://www.shipxy.com 中请求船舶信息部分。
3. 通过ip 或者特定账号单位时间内请求数量来限制访问,基本无解,比如你爬爬 google scholar 试试看



无忧代理IP(www.data5u.com)原创文章,转载请注明出处。

抽取IP代金券
返回顶部
在线咨询
人工客服
 QQ交流群 - 001
QQ:340529947(满)
 QQ交流群 - 002
QQ:828393818
 售前咨询 - 001
QQ:1598729786
 技术支持 - 001
QQ:2562178315
为了避免 QQ 丢消息,请尽量添加客服为 QQ 好友。
客服工作时间08:30──17:30
关注微信
在线咨询
人工客服
 QQ交流群 - 001
QQ:340529947(满)
 QQ交流群 - 002
QQ:828393818
 售前咨询 - 001
QQ:1598729786
 技术支持 - 001
QQ:2562178315
为了避免 QQ 丢消息,请尽量添加客服为 QQ 好友。
客服工作时间08:30──17:30
电话:4007-745-096
QQ:
周一至周日8:30-18:00 技术部电话热线