字符编码

  1. 字符编码
    文字或数字转换为二进制存放方式——编码
    二进制数值转换为文字或数字——解码
    不同的标准和规范就对应不同的字符集(UTF-8,UTF-16, GBK)
    有用的资料
  1. python里的编码解码
    知乎的高票回答很简洁易懂
    Python的默认编码是ASCII,Python诞生时间要比unicode早,要支持非ASCII字符需要显示地指定编码格式。Python和字符串相关的数据类型,分别是str和unicode这两种,是basestring的子类。
    Python3x或者其他编程语言,unicode都是默认的编码格式,不同的人用不同的编码表示,有的是utf-8,有的是GBK.在python中,编码解码其实是不同编码系统间的转换; 默认情况下,转换目标是Unicode,即编码unicode→str,解码str→unicode,其中str指的是字节流
  1. 处理一个异常字符用的方法,把不能用gbk编码的字符视作异常字符
    1
    2
    3
    4
    try:
    s.decode("utf-8").encode("gbk")
    except UnicodeEncodeError as e:
    print e