网站地图 联系我们

学习python首选-实战python学习班,专注于python高级工程师培养,python课程:包括Python核心编程技术、全栈开发、网络爬虫、人工智能等。python全栈工程师+提高工作经验,获取免费试听课程!
当前位置: python培训 > python学习 > 常见问题 > 正文

Python 捉虫unicode及utf-8转中文问题求解

来源:肚皮舞 浏览量: 发布日期:20-08-31 10:52:39 调整字体大小【 【所属栏目:常见问题】

  我爬的网页源码顶端写的是

  我在浏览器打开源码看到我想要的信息也是中文,

  不过在urllib2.urlopen(url).read()输出来的却是类似于

  陈颖

  这种unicode编码

  然后我使用 .encode('utf-8')也没有效果。。

  请问该怎么转成中文?

  (我的python程序是coding:utf-8)

  &#开头都是HTTP转义的,可以用HTTPParser解码啊

  import HTMLParser

  h = HTMLParser.HTMLParser()

  print h.unescape("陈颖").encode("utf-8")

  陈颖

  那可以试试这样:

  >>> h = HTMLParser.HTMLParser()

  >>> import HTMLParser

  >>> h = HTMLParser.HTMLParser()

  >>> print h.unescape('陈颖')

  陈颖

标签:
肚皮舞新闻动态News Center

肚皮舞视频

肚皮舞培训课程

联系卡伊丝contact us
联系我们
python培训「零基础入门到精通」python人工智能编程培训班-0798wz.com

咨询热线:18301225663