python编程笔记--字符编码-白红宇

python编程笔记--字符编码

阅读量：7068 次

发布时间：2019-06-28

本文共 1208 字，大约阅读时间需要 4 分钟。

ASCII码、Unicode、utf-8

ASCII（American Standard Code for Information Interchange，美国标准信息交换代码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言，其最多只能用8位来表示（一个字节），即：2**8 = 256-1，所以，ASCII码最多只能表示255个符号。

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。Unicode是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，规定虽有的字符和符号最少由16位来表示（2个字节），即：2 **16 = 65536，

注：此处说的的是最少2个字节，可能更多

Unicode的特点：

直接支持全球所有语言，每个国家都可以不用再使用自己之前的旧编码了，用unicode就可以了。(就跟英语是全球统一语言一样)

unicode包含了跟全球所有国家编码的映射关系

使用unicode表示一个字符，太浪费空间

UTF-8，是对Unicode编码的压缩和优化，他不再使用最少使用2个字节，而是将所有的字符和符号进行分类：使用1、2、3、4个字节表示所有字符；优先使用1个字符、无法满足则使增加一个字节，最多4个字节。英文占1个字节、欧洲语系占2个、东亚占3个，其它及特殊字符占4个。总之，UTF是为unicode编码设计的一种在存储和传输时节省空间的编码方案。

各个字符编码：

ASCII 占1个字节，只支持英文

GB2312 占2个字节，支持6700+汉字

GBK GB2312的升级版，支持21000+汉字

Shift-JIS 日本字符

ks_c_5601-1987 韩国编码

TIS-620 泰国编码

Unicode 2-4字节已经收录136690个字符，并还在一直不断扩张中...

python3中字符编码：

　　 py3有两种数据类型：str和bytes； str类型存unicode数据，bytse类型存bytes数据（注：无论以什么编码在内存里显示字符，存到硬盘上都是2进制）

　　py2默认ASCII码，py3默认的utf8

　　在py3中encode,在转码的同时还会把string 变成bytes类型，decode在解码的同时还会把bytes变回string

python3 执行代码的过程：

解释器找到代码文件，把代码字符串按文件头定义的编码加载到内存，转成unicode

把代码字符串按照语法规则进行解释，

所有的变量字符都会以unicode编码声明

常见编码错误的原因有：

Python解释器的默认编码

Python源文件文件编码

Terminal使用的编码

操作系统的语言设置

转载于:https://www.cnblogs.com/jjliu2018/p/10059890.html

你可能感兴趣的文章