Python urllib模块 网络资源访问安装下载
urllib是Python标准库最为常用的一个python网络应用资源访问的模块了,它可以让你像访问本地文本文件一样,读取网页的内容。
Python urllib的作用是访问一些不需要验证的网络资源和cookie等。
urllib模块提供了一个为网络资源访问的超简单易懂的api接口,还包括一些函数方法用于对参数编码、下载网页文件等操作。这个模块的使用门槛非常低,初期者也可以尝试去抓取和读取或者保存网络资源,下面短短2行代码让你体会到Python的强大。
玩蛇网代码演示:
>>> import urllib #它是标准库中的模块,不需要额外下载
>>> print urllib.urlopen('//www.iplaypy.com/').read()
好了,2行代码将玩蛇网首页的网页源码信息全部读到终端屏幕上了,我们调用了urllib的urlopen方法,打开了这个网址参数,之后用read()方法读取全部内容,再用print的方法输出到终端上。
urllib.urlopen()返回一个类文件的python对象,有下面这些方法可以使用:
1 )、read(), readline(), readlines(), fileno(), close(),看到没有与我们操作文件的方法都是一样的。
2 )、info() ,返回一个httplib.HTTPMessage这个python对象,可以显示你访问的网络资源服务器的HTTP头部信息。
3 ) 、getcode() ,它的作用是返回http网页状态码,200是成功访问,404是未找到,还有其它301状态码等可以查询相关python书籍推荐。
4 )、geturl(),返回你请求的url地址。
举个例子,这样效果更好一些:
>>> import urllib
>>> baidu = urllib.urlopen(‘http://www.baidu.com/’)
>>> print baidu.info #输出baidu首页头部信息
>>> print baidu.getcode() #输出baidu首页网页的状态码
>>> print baidu.geturl() #输出请求的url地址
>>> for line in baidu:
>>> print line,
>>> baidu.close() #关闭对象方法
好了,快去你的Python解释器中,去测试一下,看看输出的效果吧。今天玩蛇网先介绍到这里,以后会补充更多的urllib模块的方法,比如,如何下载网页资源,统计下载进度,编码转换,POST/GET请求,中文乱码问题等。
当然有兴趣的朋友,可以参加我们玩蛇网的Python培训班,小班授课,会系统全面的讲到非常多的网络抓取方面的知识。
玩蛇网文章,转载请注明出处和文章网址:https://www.iplaypy.com/module/urllib.html
相关文章 Recommend
- • 2019年3月最新消息: Python 3.4.10 现已推出
- • [上海]招Python量化系统开发工程师
- • 优集品网络科技有限公司招Python中/高级工程师
- • 爱因互动科技发展有限公司招募Python开发攻城狮
- • mozio招聘Python/Django工程师
- • Kavout金融科技公司招Python研发工程师
- • Python数组逆向输出,编程练习题实例四十
- • Python数组插入排序,编程练习题实例三十九
- • Python矩阵for循环应用,编程练习题实例三十八
- • Python操作Redis数据库方面的问题
- • 请python高手帮我看看这段python代码中函数setter的
- • Python什么方法可以快速将两个队列变成字典
PYTHON基础入门必备教程 Must Know PYTHON Tutorials
- • python 解释器
- • python idle
- • python dir函数
- • python 数据类型
- • python type函数
- • python 字符串
- • python 整型数字
- • python 列表
- • python 元组
- • python 字典
- • python 集合
- • python 变量
- • python print
- • python 函数
- • python 类定义
- • python import
- • python help
- • python open
- • python 异常处理
- • python 注释
- • python continue
- • python pass
- • python return
- • python global
- • python assert
- • python if语句
- • python break
- • python for循环
- • python while循环
- • python else/elif
- • lambda匿名函数
PYTHON进阶提高必备教程 Must Know PYTHON Modules
- • os 模块
- • sys 模块
- • re 正则表达式
- • time 日期时间
- • pickle 持久化
- • random 随机
- • csv 模块
- • logging 日志
- • socket网络通信
- • json模块
- • urlparse 解析URL
- • urllib 模块
- • urllib2 模块
- • robotparser 解析
- • Cookie 模块
- • smtplib 邮件
- • Base64 编码
- • xmlrpclib客户端
- • string 文本
- • Queue 线程安全
- • math数学计算
- • linecache缓存
- • threading多线程
- • sqlite3数据库
- • gzip压缩解压
最新内容 NEWS
- • Python linecache模块缓存读取大文件指定行
- • Python OS模块常用功能 中文图文详解
- • Python json解析模块loads/dumps中文encode教程
- • Python random模块sample、randint、shuffle、cho
- • Python urllib2模块post/get 下载网络资源
- • Python re正则表达式操作指南
- • Python time模块 函数格式 时间操作源码演示
- • Python Gzip压缩与解压模块
- • 第三方时间日期库 Python Arrow模块
- • Python Queue模块 多线程安全 先进先出的实
图文精华 RECOMMEND
-
Python linecache模块缓存读取大文件
-
Python OS模块常用功能 中文图文详
-
Python json解析模块loads/dumps中文e
-
Python random模块sample、randint、shu
-
Python re正则表达式操作指南
-
Python time模块 函数格式 时间操作
热点文章 HOT
- Python json解析模块loads/dumps中文encode教程
- Python re正则表达式操作指南
- Python threading多线程模块
- Python string模块 字符串函数方法操作教程
- Python robotparser 网络蜘蛛robots.txt搜索访问
- Python Cookie HTTP获取cookie并处理
- Python urllib模块 网络资源访问安装下载
- Python csv模块读写中文乱码等问题解决
- Python urllib2模块post/get 下载网络资源
- Python sys模块 argv path常用方法图文详解