网站地图 联系我们

学习python首选-实战python学习班,专注于python高级工程师培养,python课程:包括Python核心编程技术、全栈开发、网络爬虫、人工智能等。python全栈工程师+提高工作经验,获取免费试听课程!
当前位置: python培训 > python学习 > 常见问题 > 正文

网页编码gb2312和gbk的pyquery中文乱码问题

来源:肚皮舞 浏览量: 发布日期:20-08-11 17:25:13 调整字体大小【 【所属栏目:常见问题】

  网页编码gb2312和gbk的pyquery中文乱码问题

  生成的网页打卡乱码,但是url若换成www.baidu.com则正常,查看后发现贴吧编码是gbk,百度首页编码是gb2312。不知道是什么原因?

  # -*- coding:utf-8 -*-

  from pyquery import PyQuery as pq

  import codecs

  d = pq(url'http://tieba.baidu.com/f?kw=宋时行')

  sep = d('body').html()

  file = codecs.open('new.html', 'w', 'utf-8')

  file.write(sep)

  file.close()

  第一,url里面汉字你使用urllib2.quote()转码下

  d = pq(url'http://tieba.baidu.com/f?kw=' + urllib2.quote('宋时行'))

  第二,load下来的页面要从gbk转到unicode码在转为utf-8

  sep = d('body').html().decode('gbk').encode('utf-8')

  你可以试试这,我用urllib2就是这样写的,没用过pyquery,所以具体不清楚

标签:
肚皮舞新闻动态News Center

肚皮舞视频

肚皮舞培训课程

联系卡伊丝contact us
联系我们
python培训「零基础入门到精通」python人工智能编程培训班-0798wz.com

咨询热线:18301225663