python中文字符串编码处理

2019-04-15 16:47发布生成海报

站内文章 / PIC单片机

17755 0

1。字符串还是字节串？我认为，python的字符串只能说是字节串，你甚至可以在里面存放一张图片或者一个二进制可执行文件 import types
f=open(‘d://hello.jpg’,'r’)
pic=f.read()
print type(pic)==types.StringType
print pic 如果图片存在，这段代码会显示True和一串乱码。显然所谓字符串只是一串字节数据。 2。’ ‘ 和 u’ ‘ python的字符串有’ ‘和u’ ‘两种，前者是一个字节串，后者是经过unicode编码的。unicode是一种用两个字节表示每一个字符的编码方式，具体不介绍了。可以这样测试： >>>str1=’你好’
>>>str1
‘/xc4/xe3/xba/xc3′ 得到一个字节串，我的机子是xp系统的，默认编码是cp936，所以这是“你好”的cp936编码
>>>str2=str1.decode(‘cp936′)
>>>str2
u’/u4f60/u597d’ 转化为unicode编码，str2是一个unicode字符串 str1和str2都是一个字符串，不过编码的方式不一样，我们可以看出他们都占用4个字节，不过真实长度却一样。 >>>len(str1)
4
>>>len(str2)
2 str1只是一个普通的字节串，python并不知道他使用的是什么编码，所以长度等于它占用的字节数。而str2是一个经过unicode编码的字符串，我们使用字符串对象的方法decode告诉系统’/xc4/xe3/xba/xc3′是一个cp936编码串，然后系统会把它转化为 unicode编码串u’/u4f60/u597d’，系统就可以判断出这是一个含有两个字符的字符串。反过来，我们可以使用encode方法把 unicode字符串编码为普通字符串。 >>>str2.encode(‘gbk’)
‘/xc4/xe3/xba/xc3′ 惊喜的是，我们其实很容易就可以得到一个中文unicode字符串。我们测试一下： >>>mycity=u’佛山’
>>>mycity
u’/u4f5d/u5c71′ 看到吗？python已经为我们完成了转换，mycity已经是unicode字符串。

python中文字符串编码处理

Ta的文章更多 >>

热门文章

python中文字符串编码处理

Ta的文章 更多 >>

热门文章

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

Ta的文章更多 >>