设为首页 加入收藏

TOP

chardet字符集检测模块
2015-11-21 00:56:28 来源: 作者: 【 】 浏览:1
Tags:chardet 字符集 检测 模块

chardet字符集检测模块


chardet 字符集检测模块

需要安装

pip install chardet 

可以检测网页,也可以检测字符串

import urllib
import chardet

'''
从网页的头部信息可以查看的内容
网页的大小,编码等(有时候可能为空)

可以使用chardet来检测网页的编码
'''

url = 'http://baidu.com'

headerInfo = urllib.urlopen(url).info()

# headerInfo.getparam('charset')

context = urllib.urlopen(url)

print chardet.detect(context)

返回的是一个字典,可以通过字典的key拿到对应的值

result = chardet.detect(context)

print result['encoding']

代码整理

import urllib
import chardet

'''
代码的封装
'''

def auto_getCharset(targetUrl):
    context = urllib.urlopen(targetUrl).read()
    result = chardet.detect(context)
    return result['encoding']

if __name__=='__main__':
    urls = ['http://www.csdn.net/','http://www.imooc.com/','http://www.51cto.com/',
            'http://www.mukedaba.com/','http://www.nowcoder.com/']
    for url in urls:
        print url , auto_getCharset(url)

?

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇c++ 11 类成员初始化 下一篇HDU1950-Bridging signals-最长上..

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容: