玩蛇网提供最新Python编程技术信息以及Python资源下载!

Python爬虫框架哪个最好用最简单

想使用python爬虫框架开发个爬虫,但目前了解有限,希望大家帮忙推荐几个,谢谢啦~
另外,大家平常工作中都使用python干些什么事情呢?网站开发?爬虫?还是运维?

http://www.oschina.net/p/scrapy

scrapy 爬虫框架。纯python实现

scrapy是python里面比较好的爬虫框架。支持自定义Item,pipeline数据管道。在spider中可以指定domain,以及相应的Rule规则,支持xpath对DOM的解析等内容
而且scrapy还有自己的shell,可以在上面方便调试和查看结果。总之内容很多,功能很强大...

基本上scrapy做的已经非常完善了。不过不支持动态载入js解析js中的ajax请求。scrapyjs在此基础之上实现了模拟浏览器动态行为。

我写的这个配置文档
包括了Windows和CentOS 6.4下面的配置过程。可以作为一个参考。(不过有些库是我自己用到的,不一定需要安装..比如upyun...progressbar神马的)

via : stackoverflow

scrapy略重型了,如果自己写的话,可以用自带的urllib2,也可以用requests,解析可以使用lxml,BeautifulSoup,实现动态解析,还有splinter等框架,还可以用threading模块实现多线程,或者使用协程框架gevent。

自己写框架,
无外乎请求/渲染,解析,存储,队列任务,WebUI之类,
本人的框架可以干翻携程

神箭手云爬虫

玩蛇网文章,转载请注明出处和文章网址:https://www.iplaypy.com/wenda/wd19857.html

相关文章 Recommend

玩蛇网Python互助QQ群,欢迎加入-->: 106381465 玩蛇网Python新手群
修订日期:2017年05月24日 - 19时43分46秒 发布自玩蛇网

您现在的位置: 玩蛇网首页 > Python问题解答 > 正文内容
我要分享到:

必知PYTHON教程 Must Know PYTHON Tutorials

必知PYTHON模块 Must Know PYTHON Modules