- 字符编码
文字或数字转换为二进制存放方式——编码
二进制数值转换为文字或数字——解码
不同的标准和规范就对应不同的字符集(UTF-8,UTF-16, GBK)
有用的资料
- http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html
- http://cenalulu.github.io/linux/character-encoding/
- python里的编码解码
知乎的高票回答很简洁易懂
Python的默认编码是ASCII,Python诞生时间要比unicode早,要支持非ASCII字符需要显示地指定编码格式。Python和字符串相关的数据类型,分别是str和unicode这两种,是basestring的子类。
Python3x或者其他编程语言,unicode都是默认的编码格式,不同的人用不同的编码表示,有的是utf-8,有的是GBK.在python中,编码解码其实是不同编码系统间的转换; 默认情况下,转换目标是Unicode,即编码unicode→str,解码str→unicode,其中str指的是字节流
- 处理一个异常字符用的方法,把不能用gbk编码的字符视作异常字符 1234try:s.decode("utf-8").encode("gbk")except UnicodeEncodeError as e:print e