玩蛇网提供最新Python编程技术信息以及Python资源下载!

腾讯读书转TXT文件下载python代码

这里是用腾讯读做为例子,将它的内容转TXT文件后下载的这样一个python代码。

需要用到python urllib2等方法模块。

import re, os, urllib2

url = 'http://book.qq.com/s/book/0/22/22707/'
page_re = re.escape(url) + r'\d+\.shtml'
data = urllib2.urlopen(url).read()
pages = re.findall(page_re, data)
count = 1

txt = []
for page in pages:
    html = urllib2.urlopen(page).read()
    print "downloading [%d/%d], %s" % (count, len(pages), page)
    m = re.findall(re.escape('<div id="content"') + '.*?' + re.escape('</div>'), html, re.DOTALL)
    if m:
        m = m[0]
    txt.append(m)
    count += 1

f=open('downqq.html', 'wb')#www.iplaypy.com
f.write("""<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
             "http://www.w3.org/TR/html4/loose.dtd"><html lang="en">
           <head><meta http-equiv="Content-Type" content="text/html;charset=GBK"><title></title></head><body>""")
f.write('\r\n\r\n\r\n'.join(txt))
f.write('</body></html>')
f.close()

print("DONE!")
os.system("downqq.html")

玩蛇网文章,转载请注明出处和文章网址:http://www.iplaypy.com/code/text-file/tf2635.html [复制]



我要小额赞助,鼓励作者写出更好的教程↓↓↓

玩蛇网Python QQ群,欢迎加入: ① 279974227 玩蛇网Python新手群
修订日期:2016年03月31日 - 20时45分46秒 发布自玩蛇网

我要分享到:
评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
相关文章推荐
别人正在看
特别推荐
站长推荐:
去顶部去底部