xml文件很大python方法提取节点中多行文本怎么办
我遇到的xml文本是这样的:
<item>
<review_id>0079029</review_id>
<summary>的确是很浅显 适合什么都不懂 或者几乎什么都不懂的超级菜鸟</summary>
<text>非常不幸我就是这种对于数据分析 对于excel 几乎什么都不懂的超级菜鸟
非常幸运我买了这本书
作为打基础的书 还是非常不错的
蛮不错的入门 而且深深的勾起了我对数据分析的兴趣
天晓得我大学的时候统计学几乎挂科的
反正打算先看完这本书 差不多学完了这些就应该能满足我目前的工作需要了
以后再看情况要不要深入学习吧</text>
<category>book</category>
</item>
如果我通过xml.etree.ElementTree.iterparse
来提取:
for event, elem in iterparse(item_xml_file):
if elem.tag == 'item':
...
就会出现这样的错误:
Traceback (most recent call last):
File "<input>", line 1, in <module>
File ".../process.py", line 25, in process_cn
for event, elem in iterparse(item_xml_file):
File "<string>", line 91, in next
ParseError: not well-formed (invalid token): line 5, column 3
是不是SAX的方法不能提取节点中的多行文本,如果不行,那应该用什么?如果xml文件很大,又该怎么办呢?
换了台机子,又可以了。这叫什么事啊?
玩蛇网文章,转载请注明出处和文章网址:https://www.iplaypy.com/wenda/wd19638.html
相关文章 Recommend
- • 又是python乱码问题,excel类型文件单元格内数据有
- • 请教web.py服务器端接收到的上传文件名出现乱码
- • Python语言中pyAudio模块做录音文件效果样
- • 想用python调用windows录音机保存文件需要怎么做
- • python ascii格式怎么生成utf-8文件
- • Python什么方法可以将XML转换为JSON格式
- • 在模板中直接引用配置文件参数的Flask应用怎么做
- • Windows下监控文件变动情况的python方法有哪几种
- • python编码cherrypy库文件乱码
- • python与doc文件之间可以互相合作使用吗?
- • Python文件操作路径错误WindowsError: [Error 32]是什么
- • 包含tab空格缩进python文件如何统一格式
您现在的位置: 玩蛇网首页 > Python问题解答 > 正文内容
我要分享到:
必知PYTHON教程 Must Know PYTHON Tutorials
- • python 解释器
- • python idle
- • python dir函数
- • python 数据类型
- • python type函数
- • python 字符串
- • python 整型数字
- • python 列表
- • python 元组
- • python 字典
- • python 集合
- • python 变量
- • python print
- • python 函数
- • python 类定义
- • python import
- • python help
- • python open
- • python 异常处理
- • python 注释
- • python continue
- • python pass
- • python return
- • python global
- • python assert
- • python if语句
- • python break
- • python for循环
- • python while循环
- • python else/elif
- • lambda匿名函数
必知PYTHON模块 Must Know PYTHON Modules
- • os 模块
- • sys 模块
- • re 正则表达式
- • time 日期时间
- • pickle 持久化
- • random 随机
- • csv 模块
- • logging 日志
- • socket网络通信
- • json模块
- • urlparse 解析URL
- • urllib 模块
- • urllib2 模块
- • robotparser 解析
- • Cookie 模块
- • smtplib 邮件
- • Base64 编码
- • xmlrpclib客户端
- • string 文本
- • Queue 线程安全
- • math数学计算
- • linecache缓存
- • threading多线程
- • sqlite3数据库
- • gzip压缩解压
最新内容 NEWS
- • Python程序员解决棘手问题的常用库
- • 求助关于restfull api接口几个问题
- • qiniu pythonsdk提示ImportError错误求解
- • 问一个关于Hadoop Python中读写文件统计分析
- • 求问str()同__str__原理上有什么不同,分别在
- • 大神帮忙看下20行的python代码,文件io和数
- • python 爬虫爬wiki 报错 [Errno 65] No route to
- • python续点上传问题None bad token...
- • python3环境下文本中超链接出错,要如何修
- • Python环境保存操作思路问题求助
图文精华 RECOMMEND
-
Python程序员解决棘手问题的常用库
-
求问str()同__str__原理上有什么不同
-
scrapy框架里面用link extractor怎么能
-
python {}.fromkeys创建字典append添加操
-
python3 类型Type str doesn't support th
-
python里面为什么系统的时区是东八
热点文章 HOT
- 学习Python有什么好的书籍推荐?
- Python匿名函数 Lambda表达式作用
- Python与Java、C、Ruby、PHP等编程语言有什么
- Python 正则中文网页字符串提取问题
- 如何为实时性应用存取经纬度?django my
- 想用python做个客户端,在二维码登录这个地
- 有让IDE可识别Python函数参数类型的方法吗
- Python字符串转换成列表正则疑问