Python爬虫用了高匿名代理ip,爬快了为什么还是会封掉本机ip?作者:数据无忧 时间:2020-09-18 13:24:53 |
网友一回答 第一,是不是爬得太快。不要想一天就干掉一个站。 第二,修改你的请求头 第三,你不要用免费代理,或扫描代理。用一些高质量代理吧,爬虫建议使用无忧代理IP提供的动态代理。 知乎网友回答(https://www.zhihu.com/question/42139379/answer/136271008) 1.代理可能并不高匿。你可以使爬虫访问您的IP地址,来检测代理是否生效。 2.服务器可能通过请求头中的X-Real-IP、X-Forwarded-For等信息来获取真实ip。可以在发起请求时伪造这些值。 下面是我用于投票的一部分代码(nodejs): function postRequest(url,data,callback,charset='utf8',cookie){ var proxy = getProxy('https'); console.log("Posting through proxy @ "+proxy) SA.post(url) .proxy(proxy) .set("Cookie",cookie) .set('User-Agent',randomUA()) .set('X-Forwarded-For',randomIP()) .set('X-Real-IP',randomIP()) .set('Content-Type','application/x-www-form-urlencoded') .send(data) .timeout(5000) .end(function(err,res){ if (typeof(res)!="undefined"){ callback(res); }else{ console.log("Conect failed, try next proxy "); postRequest(url,data,callback,null,cookie) } }); } 无忧代理IP(www.data5u.com)原创文章,转载请注明出处。 |