我的网站爬虫python代码为什么不能正常运行,哪里写错了吗?
import urllib2 url='http://www.baidu.com/s?wd=cloga' content=urllib2.urlopen(url).read() import re urls_pat=re.compile(r'<span class="g">(.*?)</span>') siteUrls=re.findall(results_pat,content) strip_tag_pat=re.compile(r'<.*?>') file=open('results000.csv','w') for i in results: i0=re.sub(strip_tag_pat,'',i) i0=i0.strip() i1=i0.split(' ') date=i1[-1] siteUrl=''.join(i1[:-1]) rank+=1 file.write(date+','+siteUrl+','+str(rank)+'\n') file.close()
下面的内容主要提及3点:
- 变量命名方式
- 代码格式化
- 问题解答
变量命名方式
总所周知,变量(包括函数等)命名方式主要有两种:驼峰式和下划线式。两种方式都是可以接受的,但是我很难接受提问者在代码中既使用驼峰式又使用下划线式的风格。
代码格式化
就算是发布的问题代码,也需要讲究美观的吧?!个人比较倾向使用https://code.google.com/p/google-styl... 中介绍的编码方式。简单说几点,比如:
siteUrls=re.findall(urls_pat,content)
最好写成
siteUrls = re.findall(urls_pat, content)
根据自己情况适当对操作符和标点(如,)进行格式化。
问题解答
显而易见,该代码是无法正常运行的。第一个问题是第六行中results_pat应该改成urls_pat;第二个问题,第九行results更改为siteUrls;第三个问题,第九行前加入rank = 0
;
其实该代码的目的是提取出指定百度搜索页面的所有链接以及日期,至于rank,我的猜测是顺序,不知是否正确。
最后批评一下楼主提问的态度。
玩蛇网文章,转载请注明出处和文章网址:https://www.iplaypy.com/wenda/wd20420.html
相关文章 Recommend
- • 为什么我的web.pydb.select返回的数据只能遍历一次
- • python运行爬虫程序时间如何控制?
- • 适合Python应用的Vim缩进调试方法
- • Python可以做局域网线聊天类型的网站吗?
- • python爬虫脚通过web控制起始暂停的方法
- • [web.py问题]如果python bin/app.py 可以实现网站的上线
- • python requests库登录网站失败求分析脚本
- • python爬虫运行一段时间后,返回403 forbidden原因是什
- • 有没有好的python微博爬虫相关文章推荐
- • 想做个python微博爬虫用API好还是自己开发好
- • 中小型网站开发用SQLObject和peewee哪个更适
- • 我的python正则表达式写的对吗
您现在的位置: 玩蛇网首页 > Python问题解答 > 正文内容
我要分享到:
必知PYTHON教程 Must Know PYTHON Tutorials
- • python 解释器
- • python idle
- • python dir函数
- • python 数据类型
- • python type函数
- • python 字符串
- • python 整型数字
- • python 列表
- • python 元组
- • python 字典
- • python 集合
- • python 变量
- • python print
- • python 函数
- • python 类定义
- • python import
- • python help
- • python open
- • python 异常处理
- • python 注释
- • python continue
- • python pass
- • python return
- • python global
- • python assert
- • python if语句
- • python break
- • python for循环
- • python while循环
- • python else/elif
- • lambda匿名函数
必知PYTHON模块 Must Know PYTHON Modules
- • os 模块
- • sys 模块
- • re 正则表达式
- • time 日期时间
- • pickle 持久化
- • random 随机
- • csv 模块
- • logging 日志
- • socket网络通信
- • json模块
- • urlparse 解析URL
- • urllib 模块
- • urllib2 模块
- • robotparser 解析
- • Cookie 模块
- • smtplib 邮件
- • Base64 编码
- • xmlrpclib客户端
- • string 文本
- • Queue 线程安全
- • math数学计算
- • linecache缓存
- • threading多线程
- • sqlite3数据库
- • gzip压缩解压
最新内容 NEWS
- • Python程序员解决棘手问题的常用库
- • 求助关于restfull api接口几个问题
- • qiniu pythonsdk提示ImportError错误求解
- • 问一个关于Hadoop Python中读写文件统计分析
- • 求问str()同__str__原理上有什么不同,分别在
- • 大神帮忙看下20行的python代码,文件io和数
- • python 爬虫爬wiki 报错 [Errno 65] No route to
- • python续点上传问题None bad token...
- • python3环境下文本中超链接出错,要如何修
- • Python环境保存操作思路问题求助
图文精华 RECOMMEND
-
Python程序员解决棘手问题的常用库
-
求问str()同__str__原理上有什么不同
-
scrapy框架里面用link extractor怎么能
-
python {}.fromkeys创建字典append添加操
-
python3 类型Type str doesn't support th
-
python里面为什么系统的时区是东八
热点文章 HOT
- 学习Python有什么好的书籍推荐?
- Python匿名函数 Lambda表达式作用
- Python与Java、C、Ruby、PHP等编程语言有什么
- Python 正则中文网页字符串提取问题
- 如何为实时性应用存取经纬度?django my
- 想用python做个客户端,在二维码登录这个地
- 有让IDE可识别Python函数参数类型的方法吗
- Python字符串转换成列表正则疑问