玩蛇网提供最新Python编程技术信息以及Python资源下载!

香港服务器访问国内站除了用代理ip外,还有什么方便抓取的好方法?

我在做一只淘宝的爬虫,但是用的是香港的服务器,但是比较困惑:
因为每次爬淘宝的首页时候,就自动给我跳转到香港淘宝~~
导致源代码和内容都不一样~
请问如果遇到这种情况要怎么处理呢?

简单来说,比如采集58同城
如果我是泉州的,我想采集北京的,要怎么采集?

因为我用我的ip打开会总跳转到北京,但是直接想采集58首页的


?
![图片上传中...]

有时候服务器会根据你的ip对应的地理位置信息作重定向的,这个你除了找代理应该没有别的方法了。。

如果是想采集的北京的,就去打子城名,不过有PGTID保护

http://bj.58.com/?PGTID=0d000...

建义使用selenium

禁止重定向,以requests为例子:

r = requests.get('http://github.com/', allow_redirects=False)
r.status_code  # 302
r.url  # http://github.com, not https.
r.headers['Location']  # https://github.com/ -- the redirect destination

玩蛇网文章,转载请注明出处和文章网址:https://www.iplaypy.com/wenda/wd14050.html

相关文章 Recommend

玩蛇网Python互助QQ群,欢迎加入-->: 106381465 玩蛇网Python新手群
修订日期:2017年05月24日 - 20时25分29秒 发布自玩蛇网

您现在的位置: 玩蛇网首页 > Python问题解答 > 正文内容
我要分享到:

必知PYTHON教程 Must Know PYTHON Tutorials

必知PYTHON模块 Must Know PYTHON Modules