玩蛇网提供最新Python编程技术信息以及Python资源下载!
您现在的位置: 玩蛇网首页 > Python爬虫 > 正文内容

抓取网页所有url的简单Python爬虫源码

抓取网页所有url的简单Python爬虫源码,只用到了一个Python标准库urllib模块,没有用BeautifulSoup第三方库。python 多线程爬虫是一个很实用的工具。

简单Python爬虫源码发,如下:

import urllib

content = urllib.urlopen('http://www.iplaypy.com/').read()

s1=0
while s1>=0:
    begin = content.find(r'',m1)

    s1 = m2
    if(begin<=0):
        break
    elif(content[m1:m2].find(r" ")!=-1):
        m2 = content[m1:m2].find(r' ')
        url = content[m1+6:m1+m2-1]
        print url
    elif m2>=0:
        url = content[m1+6:m2-1]
        print url
print "end."

玩蛇网文章,转载请注明出处和文章网址:http://www.iplaypy.com/crawler/152.html [复制]



我要小额赞助,鼓励作者写出更好的教程↓↓↓

玩蛇网Python QQ群,欢迎加入: ① 279974227 玩蛇网Python新手群
修订日期:2016年01月31日 - 16时11分26秒 发布自玩蛇网

我要分享到:
评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
  • 天天向上
    2016-02-18 16:30:18发表

    贴出来的代码不全啊。再次申请视频教程的密码1049309119@qq.com谢谢站长

必知PYTHON教程 Must Know PYTHON Tutorials

必知PYTHON模块 Must Know PYTHON Modules