Posted by:
努力记 177 篇

努力记，通过记录，计划，让自己的努力可以触碰彩虹！

10,438

Python编码

Python中，不论是Python 2.x还是Python 3.x中，总体上说，字符都只有2大类：

一类是通用的Unicode字符；

另一类是，（unicode被编码后的），某种编码类型的字符，比如UTF-8，GBK等等类型的字符；

Python 2.x，字符编码方面，设计的不好，导致经常，非常容易，出现一些字符编码解码方面的错误。

Python 3.x中，对于字符编解码方面的设计，的确先进和简洁多了，在使用过程中，也就很少再出现这类编码解码方面的错误了。

关于Python脚本开头两行的：#!/usr/bin/python和# -*- coding: utf-8 -*-的作用 – 指定文件编码类型

#!/usr/bin/python

这行和python没有多大关系，是Linux中的shell规范，是用来说明脚本语言是python的

是要用/usr/bin下面的程序（工具）python，这个解释器，来解释python脚本，来运行python脚本的。

# -*- coding: utf-8 -*-

是用来指定文件编码为utf-8的，PEP 0263 — Defining Python Source Code Encodings

如果没有此文件编码类型的声明，则python默认以ASCII编码去处理

如果你没声明编码，但是文件中又包含非ASCII编码的字符的话，python解析器去解析的python文件，自然就会报错了。

必须放在python文件的第一行或第二行

支持的格式，可以有三种：

带等于号的：

# coding=<encoding name>

最常见的，带冒号的（大多数编辑器都可以正确识别的）：

#!/usr/bin/python

# -*- coding: <encoding name> -*-

vim的：

#!/usr/bin/python

# vim: set fileencoding=<encoding name> :

更加精确的解释是：

符合正则表达式：

"coding[:=]\s*([-\w.]+)"

很明显，如果你熟悉正则表达式，也就可以写出来，其他一些合法的编码声明，以utf-8为例，比如：

coding: utf-8

coding=utf-8

coding= utf-8

encoding:utf-8

crifanEncoding=utf-8

为了照顾特殊的Windows中的带BOM（’\xef\xbb\xbf’）的UTF-8：

如果你的python文件本身编码是带BOM的UTF-8，即文件前三个字节是：’\xef\xbb\xbf’，那么：

即使你没有声明文件编码，也自动当做是UTF-8的编码

如果你声明了文件编码，则必须是声明了（和你文件编码本身相一致的）UTF-8

否则（由于声明的编码和实际编码不一致，自然）会报错

类似于： \u3232\u6674 的字符串，转换为对应的unicode字符。

对应的，可以通过Python的decode函数去解码，其中自定原始字符串位unicode-escape，就可以了。

	关键字	含义	具体的写法	两者之间如何互换
Python 2.x	str	某种编码（UTF-8，GBK等）类型的字符串	"python 2.x中，普通的，用引号括起来的字符，就是str；此时字符串的编码类型，对应着你的Python文件本身保存为何种编码有关，最常见的Windows平台中，默认用的是GBK"	str->unicode: 【核心代码逻辑】 1.确保自己知道对应字符串，是什么编码的 2.然后使用yourStr.decode("yourKnownEncoding") 去解码为对应的unicode字符串注： yourKnownEncoding为你自己所已知的，该字符串的编码类型 3.然后继续你想要的各种处理【完整代码】参见下面的：python_2.x_str_to_unicode.py
	unicode	Unicode类型的字符串	有两种写法：前缀加u u"Python 2.x中，在普通字符串，加上前缀u后，就表示字符串是Unicode类型了" 用unicode()强制转换： unicode("Python 2.x中，在普通字符串，加上前缀u后，就表示字符串是Unicode类型了") 此种写法的前提是，python文件中指定了对应的编码类型；并且对应的python文件的确是以该编码方式保存的	unicode->str: 【核心代码逻辑】 1.先声明，或已获得了对应的，Unicode字符 2.然后用 unicodeVariable.decode("encodingType") 去编码为对应的encodingType类型的字符串。其中encodingType常见的有UTF-8，GBK等等；注：将Unicode转换为什么编码，因实际情况而异；即具体编码为什么类型，和你的实际使用的需求和目的有关； 3.然后再去做后续的，你自己想要的，任何的处理包括将其保存到对应的文件，传递给后面的代码处理等。注：虽然上述说如果转换为GBK，用于在Windows的cmd中输出，只是为了演示的目的；实际上输出，尤其是打印Unicode类型的字符的时候，Python系统会自动将Unicode编码为，与当前输出终端，相同的编码，然后再显示的；此处此即自动把Unicode编码为cmd的GBK然后再显示。【完整代码】参见下面的：python_2.x_unicode_to_str.py

Python 3.x	bytes	某种编码（UTF-8，GBK等）类型的字节序列	普通字符串加上字母b作为前缀，就是表示bytes字符串了。需要注意的是： bytes，都是某种特定的编码的字符串 bytes，如果写上对应的值的话，那么只能直接写ASCII字符串，即只能写英文单词这种而如果想要写中文汉字这种，需要写\xYY这种16进制的值的形式才可以其中\xYY的值到底是多少，是你自己去通过相应的办法，将其编码为特定类型的字符所获得的其中如何把字符串，转换为某种编码的bytes的值，可以参考下面的"str->bytes"中的代码一般来说，我们在实际编程中，所遇到的是，你自己需要知道当前获得的字符串变量，是bytes，并且知道其是什么编码，基本上就可以了，然后就可以用后面介绍的bytesVariable.decode("specificEncoding")去解码为你需要的Unicode的str字符串了	bytes->str: 【核心代码逻辑】 1.如果你要写对应的bytes变量，那么需要加上前缀字母b；注意：不过要注意的是，只能写英文单词，而不能直接写中文等非ASCII的字符。如果非要写非ASCII字符，那么只能自己想办法先将其转化为对应某种编码的byte，内部存储的内容，是对应的各个字节，打印出来的效果就是\xYY这种十六进制的值。其中：如果把对应的中文转换对特定编码的bytes的16进制值，可以参考下面的"str->bytes"的代码。 2.然后用 bytesVariable.decode("specificEncoding") 去解码为对应的str（即Unicode字符串）其中：specificEncoding是该bytes的编码。 3.然后你就可以拿着Unicode的str，去做你想要的事情了比如常见的打印出来看看。【完整代码】参见下面的：python_3.x_bytes_to_str.py
	str	Unicode类型的字符串	Python 3.x中，直接输出的字符串（被单引号或双引号括起来的），就已经是Unicode类型的str了。当然，有一些前提： Python文件开始已经声明对应的编码 Python文件本身的确是使用该编码保存的两者的编码类型要一样（比如都是UTF-8或者都是GBK等）这样Python解析器，才能正确的把你所输出字符串，解析为对应的unicode的str	str->bytes: 【核心代码逻辑】 1.默认写出的字符串，已经就是str，即Unicode，的类型了。或者你之前已经获得了对应的unicode的str了。注：当然，如果在Python文件中，需要满足下列条件： A。Python文件开始已经声明对应的编码 B。Python文件本身的确是使用该编码保存的 C。两者的编码类型要一样（比如都是UTF-8或者都是GBK等） 2.然后调用 unicodeStr.encode("encodingType") 去编码为对应的字节序列bytes， 3.然后后续再进行相应的你所需要的处理【完整代码】参见下面的：python_3.x_str_to_bytes.py

back up ↑

一	二	三	四	五	六	日
« 2月
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

你的努力

努力记，通过记录，计划，让自己的努力可以触碰彩虹！

Python编码

标签云

日历

分类目录

近期文章

网站统计

功能