30.1.3. 了解bytes与str的区别

Python有两种类型可以表示字符序列:一种是bytes,另一种是str。bytes实例包含的是原始数据,即8位的无符号值(通常按照ASCII编码标准来显示)。

大家一定要记住:str实例不一定非要用某一种固定的方案编码成二进制数据,bytes实例也不一定非要按照某一种固定的方案解码成字符串。

要把Unicode数据转换成二进制数据,必须调用str的encode方法。

要把二进制数据转换成Unicode数据,必须调用bytes的decode方法。

调用这些方法的时候,可以明确指出自己要使用的编码方案,也可以采用系统默认的方案,通常是指UTF-8

编写Python程序的时候,一定要把解码和编码操作放在界面最外层来做,让程序的核心部分可以使用Unicode数据来运作,这种办法通常叫作Unicode三明治(Unicode sandwich)。程序的核心部分,应该用str类型来表示Unicode数据,并且不要锁定到某种字符编码上面。这样可以让程序接受许多种文本编码(例如Latin-1、Shift JIS及Big5),并把它们都转化成Unicode,也能保证输出的文本信息都是用同一种标准(最好是UTF-8)编码的。

我们通常需要编写两个辅助函数(helper function),以便在这两种情况之间转换,确保输入值类型符合开发者的预期形式。

第一个辅助函数接受bytes或str实例,并返回str:

def to_str(byte_or_str):
    if isinstance(byte_or_str, bytes):
        value = byte_or_str.decode("utf-8")
    else:
        value = byte_or_str
    return value


print(repr(to_str(b"hujianli")))
print(repr(to_str("hujianli")))

第二个辅助函数也接受bytes或str实例,但它返回的是bytes:

def to_bytes(bytes_or_str):
    if isinstance(bytes_or_str, str):
        value = bytes_or_str.encode("utf-8")
    else:
        value = bytes_or_str
    return value

第二个问题发生在操作文件句柄的时候,这里的句柄指由内置的open函数返回的句柄。这样的句柄默认需要使用Unicode字符串操作,而不能采用原始的bytes。

程序发生异常是因为在调用open函数时,指定的是’w’模式,所以系统要求必须以文本模式写入。如果想用二进制模式,那应该指定’wb’才对。在文本模式下,write方法接受的是包含Unicode数据的str实例,不是包含二进制数据的bytes实例。

另一种改法是在调用open函数的时候,通过encoding参数明确指定编码标准,以确保平台特有的一些行为不会干扰代码的运行效果。

要点

bytes包含的是由8位值所组成的序列,str包含的是由Unicode码点所组成的序列。

我们可以编写辅助函数来确保程序收到的字符序列确实是期望要操作的类型(要知道自己想操作的到底是Unicode码点,还是原始的8位值。用UTF-8标准给字符串编码,得到的就是这样的一系列8位值)。

bytes与str这两种实例不能在某些操作符(例如>、==、+、%操作符)上面混用。从文件中读取二进制数据(或者把二进制数据写入文件)时,应该用’rb’(‘wb’)这样的二进制模式打开文件。

如果要从文件中读取(或者要写入文件之中)的是Unicode数据,那么必须注意系统默认的文本编码方案。若无法肯定,可通过encoding参数明确指定。