网站地图 联系我们

学习python首选-实战python学习班,专注于python高级工程师培养,python课程:包括Python核心编程技术、全栈开发、网络爬虫、人工智能等。python全栈工程师+提高工作经验,获取免费试听课程!
当前位置: python培训 > python学习 > python知识 > 正文

Python urllib2模块post/get 下载网络资源

来源:肚皮舞 浏览量: 发布日期:20-05-10 05:24:13 调整字体大小【 【所属栏目:python知识】

  Python urllib2模块post/get 下载网络资源

  urllib2是非常强大的Python网络资源访问模块,它的功能和玩蛇网前面讲过的urllib模块非常相似。

  模块目录

  urllib2模块简介

  urllib2模块函数讲解

  urllib2模块源码演示

  urllib2模块注意事项

  一、urllib2模块简介

  Python标准库中的urllib2模块可以说是urllib模块的一个升级的复杂版,不需要另外下载,它的函数可以处理更多复杂的情况,比如访问的网络资源需要Http验证,需要cookie信息,模仿普通浏览器一样去访问网络、网页资源,这个时候urllib2就派上用场了。

  二、urllib2模块函数方法

  1 )、设置timeout超时设置:

  >>> import urllib2 #导入urllib2模块

  >>> test = urllib2.urlopen(‘//www.iplaypy.com/’, timeout=15)

  >>> # 2个参数,一个是url网址,另一个是超级的时候,这次测试设置值为15。

  2 )、在访问的时候加入Header头部信息

  >>> header = {“User-Agent”: “Mozilla-Firefox24.0”} #dict字典类型

  >>> urllib2.urlopen(url, header)

  向上面这样的操作,就可以加上Header头部信息,用来模仿浏览器行为,应对一些禁止爬虫的网络资源,非常适用。

  3 )、用urllib2得到http网页状态码

  >>> import urllib2

  >>> test = urllib2.urlopen(‘http://www.baidu.com/’)

  >>> test.code

  就这么简单,就访问了百度的网页状态码,200证明访问得能,得到了网页内容。

  4 )、使用urllib2对Cookie进行处理

  >>> import urllib2

  >>> import cookielib

  >>>

  >>> cookie =cookielib.CookieJar() # 后面函数方法要注意C和J是大写的。

  >>> opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

  >>> response = opener.open(‘http://www.baidu.com’)

  >>> for item in cookie:

  >>> if item.name == "some_cookie_item_name”

  >>> print item.value

  三 、urllib2模块源码演示

  源码,待续。

  四 、urllib2模块注意事项

  URLLIB2模块还有很多功能和方法这里没有做介绍,如Proxy代理设置可以访问一些有限制的数据,如搜索引擎的数据,重定向url网址的处理,Debug日志的记录设置等,大家有时间可以去看一下官方的文档,或者用dir()和help()方法,查看一下模块的方法和说明。

标签:
肚皮舞新闻动态News Center

肚皮舞视频

肚皮舞培训课程

联系卡伊丝contact us
联系我们
python培训「零基础入门到精通」python人工智能编程培训班-0798wz.com

咨询热线:18301225663