玩蛇网提供最新Python编程技术信息以及Python资源下载!

Python内部用BeautifulSoup方式提取锚文本怎么实现

超链接如下:

<a target="_blank" href="http://www.baidu.com"><span id="video_hl">国际足球</span>巴西世界杯</a>

现在,我想提取锚文本:国际足球巴西世界杯
现在的方法:

a = """<a target="_blank" href="http://www.baidu.com"><span id="video_hl">国际足球</span>巴西世界杯</a>"""
    soup = BeautifulSoup("".join(a))
    print soup.contents[0].string

结果输出None,我知道问题出在标签a中还包含其他的标签(span),从而导致出错,不知道怎么实现呢?

解决办法:

    a = """<a target="_blank" href="http://www.baidu.com"><span id="video_hl">国际足球</span>巴西世界杯</a>"""
    soup = BeautifulSoup("".join(a))
    print soup.text

注:要使用bs4版本

from bs4 import BeautifulSoup

html = '<a target="_blank" href="http://www.baidu.com"><span id="video_hl">国际足球</span>巴西世界杯</a>'
soup = BeautifulSoup(html)
print(soup.select('a')[0].text)

玩蛇网文章,转载请注明出处和文章网址:https://www.iplaypy.com/wenda/wd19640.html

相关文章 Recommend

玩蛇网Python互助QQ群,欢迎加入-->: 106381465 玩蛇网Python新手群
修订日期:2017年05月23日 - 17时00分32秒 发布自玩蛇网

您现在的位置: 玩蛇网首页 > Python问题解答 > 正文内容
我要分享到:

必知PYTHON教程 Must Know PYTHON Tutorials

必知PYTHON模块 Must Know PYTHON Modules