"打开文件的 open 方法和对字符编码解码的 encode/decode，它们都有一个同样的可选参数 errors。这个参数很有用处。比如我们从网上获取的一段文本，然后想保存到文件中。有时候会莫名出现类似的报错： UnicodeEncod ...."

luwenjun

Rpa 179 号会员
python基础其他经验 • 0 回帖 • 1K 浏览 • 2019-12-23 15:49:52

文本编解码时的 errors 参数

打开文件的 open 方法和对字符编码解码的 encode/decode，它们都有一个同样的可选参数 errors。这个参数很有用处。
比如我们从网上获取的一段文本，然后想保存到文件中。有时候会莫名出现类似的报错：

UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 2: illegal multibyte sequence

当 position 不是 0 或者 -1，而是一个比较大的数字时，基本都是因为文字中有超出所用编码范围的字符而导致。比如以下的例子：

s='影评©豆瓣'
s.encode('gbk')

类似的，当你从 UTF8 的网页获取了内容，又以 windows 默认的 GBK 保存文件，若其中存在一些字符是 GBK 无法表示的，就会有相同报错。

`s='影评©豆瓣'
s.encode('gbk',errors='ignore')

errors 的默认值是 strict，只要有无法解码字符就报错；
设为 **ignore ** 是忽略无法解码字符；
也可以设为 replace，会将无法解码字符替换为问号 (?)

上面的例子是针对编码（encode），在解码（decode）时也同样适用。