python抓取GBK网页出现乱码该怎么办?

url=’http://www.chenhaifei.com/’
print url
cont = requests.get(url,timeout=120,headers=headers).text.encode(‘utf-8’)
print cont

当抓取GBK网页的时候,在响应获取网页内容的时候,使用.encode(‘utf-8’)方法就可以将GBK源码改成UTF-8的源码了(如上代码)。

当出现这类问题时候,优先修改最初的源码,从根本上解决乱码的问题。

另外一种方法

#coding:utf-8
#author:chenhaifei
import requests #打开
url = ‘http://www.chenhaifei.com/’
r = requests.get(url)
r.encoding=’gbk’
cc = r.text
print(cc)

未经允许不得转载:陈海飞博客 » python抓取GBK网页出现乱码该怎么办?

分享到:更多 ()