玩蛇网提供最新Python编程技术信息以及Python资源下载!
您现在的位置: 玩蛇网首页 > Python问题解答 > 正文内容

Python 正则中文网页字符串提取问题

<span class="pl">制片国家/地区:</span> 美国 / 澳大利亚<br/>

如上网页中的字符串,如何用正则提取出美国和澳大利亚。
初学,研究了半天没头绪。。。。

Python 2.7.6 (default, Sep  9 2014, 15:04:36) 
[GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.39)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> html = '<span class="pl">制片国家/地区:</span> 美国 / 澳大利亚<br/>'
>>> re.findall(r'制片国家/地区:</span>(.*?)<br/>', html)
[' \xe7\xbe\x8e\xe5\x9b\xbd / \xe6\xbe\xb3\xe5\xa4\xa7\xe5\x88\xa9\xe4\xba\x9a']
>>> re.findall(r'制片国家/地区:</span>(.*?)<br/>', html)[0]
' \xe7\xbe\x8e\xe5\x9b\xbd / \xe6\xbe\xb3\xe5\xa4\xa7\xe5\x88\xa9\xe4\xba\x9a'

试一下,这种

In[5]: re.findall(ur'制片国家/地区:</span>(.*?)<br/>', html)
Out[5]: [u' \u7f8e\u56fd / \u6fb3\u5927\u5229\u4e9a']

玩蛇网文章,转载请注明出处和文章网址:http://www.iplaypy.com/wenda/wd18577.html

相关文章 Recommend

玩蛇网Python互助QQ群,欢迎加入-->: 106381465 玩蛇网Python新手群
修订日期:2017年06月02日 - 17时40分23秒 发布自玩蛇网

我要分享到:

必知PYTHON教程 Must Know PYTHON Tutorials

必知PYTHON模块 Must Know PYTHON Modules