Python中,不论是Python 2.x还是Python 3.x中,总体上说,字符都只有2大类:
一类是通用的Unicode字符;
另一类是,(unicode被
编码后的),某种编码类型的字符,比如UTF-8,GBK等等类型的字符;
Python 2.x,字符编码方面,设计的不好,导致经常,非常容易,出现一些字符编码解码方面的错误。
Python 3.x中,对于字符编解码方面的设计,的确先进和简洁多了,在使用过程中,也就很少再出现这类编码解码方面的错误了。
关于Python脚本开头两行的:#!/usr/bin/python和# -*- coding: utf-8 -*-的作用 – 指定文件编码类型
#!/usr/bin/python
这行和python没有多大关系,是Linux中的shell规范,是用来说明脚本语言是python的
是要用/usr/bin下面的程序(工具)python,这个解释器,来解释python脚本,来运行python脚本的。
# -*- coding: utf-8 -*-
如果没有此文件编码类型的声明,则python默认以ASCII编码去处理
如果你没声明编码,但是文件中又包含非ASCII编码的字符的话,python解析器去解析的python文件,自然就会报错了。
必须放在python文件的第一行或第二行
支持的格式,可以有三种:
带等于号的:
# coding=<encoding name>
最常见的,带冒号的(大多数编辑器都可以正确识别的):
#!/usr/bin/python
# -*- coding: <encoding name> -*-
vim的:
#!/usr/bin/python
# vim: set fileencoding=<encoding name> :
更加精确的解释是:
符合正则表达式:
"coding[:=]\s*([-\w.]+)"
很明显,如果你熟悉正则表达式,也就可以写出来,其他一些合法的编码声明,以utf-8为例,比如:
coding: utf-8
coding=utf-8
coding= utf-8
encoding:utf-8
crifanEncoding=utf-8
为了照顾特殊的Windows中的带BOM(’\xef\xbb\xbf’)的UTF-8:
如果你的python文件本身编码是带BOM的UTF-8,即文件前三个字节是:’\xef\xbb\xbf’,那么:
即使你没有声明文件编码,也自动当做是UTF-8的编码
如果你声明了文件编码,则必须是声明了(和你文件编码本身相一致的)UTF-8
否则(由于声明的编码和实际编码不一致,自然)会报错
类似于: \u3232\u6674 的字符串,转换为对应的unicode字符。
对应的,可以通过Python的decode函数去解码,其中自定原始字符串位unicode-escape,就可以了。
|
关键字
|
含义
|
具体的写法
|
两者之间如何互换
|
Python 2.x |
str |
某种编码(UTF-8,GBK等)类型的字符串 |
"python 2.x中,普通的,用引号括起来的字符,就是str;此时字符串的编码类型,对应着你的Python文件本身保存为何种编码有关,最常见的Windows平台中,默认用的是GBK" |
str->unicode:
【核心代码逻辑】
1.确保自己知道对应字符串,是什么编码的
2.然后使用yourStr.decode("yourKnownEncoding")
去解码为对应的unicode字符串
注:
yourKnownEncoding为你自己所已知的,该字符串的编码类型
3.然后继续你想要的各种处理
【完整代码】
参见下面的:python_2.x_str_to_unicode.py
|
|
unicode |
Unicode类型的字符串 |
有两种写法:
- 前缀加u
- u"Python 2.x中,在普通字符串,加上前缀u后,就表示字符串是Unicode类型了"
- 用unicode()强制转换:
- unicode("Python 2.x中,在普通字符串,加上前缀u后,就表示字符串是Unicode类型了")
- 此种写法的前提是,python文件中指定了对应的编码类型;
- 并且对应的python文件的确是以该编码方式保存的
|
unicode->str:
【核心代码逻辑】
1.先声明,或已获得了对应的,Unicode字符
2.然后用
unicodeVariable.decode("encodingType")
去编码为对应的encodingType类型的字符串。
其中encodingType常见的有UTF-8,GBK等等;
注:
将Unicode转换为什么编码,因实际情况而异;
即具体编码为什么类型,和你的实际使用的需求和目的有关;
3.然后再去做后续的,你自己想要的,任何的处理
包括将其保存到对应的文件,传递给后面的代码处理等。
注:
虽然上述说如果转换为GBK,用于在Windows的cmd中输出,只是为了演示的目的;
实际上输出,尤其是打印Unicode类型的字符的时候,Python系统会自动将Unicode编码为,与当前输出终端,相同的编码,然后再显示的;此处此即自动把Unicode编码为cmd的GBK然后再显示。
【完整代码】
参见下面的:python_2.x_unicode_to_str.py
|
|
|
|
|
|
Python 3.x |
bytes |
某种编码(UTF-8,GBK等)类型的字节序列 |
普通字符串加上字母b作为前缀,就是表示bytes字符串了。
需要注意的是:
- bytes,都是某种特定的编码的字符串
- bytes,如果写上对应的值的话,那么只能直接写ASCII字符串,即只能写英文单词这种
- 而如果想要写中文汉字这种,需要写\xYY这种16进制的值的形式才可以
- 其中\xYY的值到底是多少,是你自己去通过相应的办法,将其编码为特定类型的字符所获得的
- 其中如何把字符串,转换为某种编码的bytes的值,可以参考下面的"str->bytes"中的代码
- 一般来说,我们在实际编程中,所遇到的是,你自己需要知道当前获得的字符串变量,是bytes,并且知道其是什么编码,基本上就可以了,然后就可以用后面介绍的bytesVariable.decode("specificEncoding")去解码为你需要的Unicode的str字符串了
|
bytes->str:
【核心代码逻辑】
1.如果你要写对应的bytes变量,那么需要加上前缀字母b;
注意:
不过要注意的是,只能写英文单词,而不能直接写中文等非ASCII的字符。
如果非要写非ASCII字符,那么只能自己想办法先将其转化为对应某种编码的byte,内部存储的内容,是对应的各个字节,打印出来的效果就是\xYY这种十六进制的值。
其中:
如果把对应的中文转换对特定编码的bytes的16进制值,可以参考下面的"str->bytes"的代码。
2.然后用
bytesVariable.decode("specificEncoding")
去解码为对应的str(即Unicode字符串)
其中:specificEncoding是该bytes的编码。
3.然后你就可以拿着Unicode的str,去做你想要的事情了
比如常见的打印出来看看。
【完整代码】
参见下面的:python_3.x_bytes_to_str.py
|
|
str |
Unicode类型的字符串 |
Python 3.x中,直接输出的字符串(被单引号或双引号括起来的),就已经是Unicode类型的str了。
当然,有一些前提:
- Python文件开始已经声明对应的编码
- Python文件本身的确是使用该编码保存的
- 两者的编码类型要一样(比如都是UTF-8或者都是GBK等)
这样Python解析器,才能正确的把你所输出字符串,解析为对应的unicode的str
|
str->bytes:
【核心代码逻辑】
1.默认写出的字符串,已经就是str,即Unicode,的类型了。
或者你之前已经获得了对应的unicode的str了。
注:当然,如果在Python文件中,需要满足下列条件:
A。Python文件开始已经声明对应的编码
B。Python文件本身的确是使用该编码保存的
C。两者的编码类型要一样(比如都是UTF-8或者都是GBK等)
2.然后调用
unicodeStr.encode("encodingType")
去编码为对应的字节序列bytes,
3.然后后续再进行相应的你所需要的处理
【完整代码】
参见下面的:python_3.x_str_to_bytes.py
|