unicode编码和utf-8的区别（聊一下Unicode及UTF-8UTF-16UTF-32）

破碎思念 2022-12-26 09:19:44

简洁的语言说简单的事Unicode 是国际组织制定的可以容纳世界上所有文字和符号的字符集，它定义了文字和二进制的对应关系，并为每个字符分配了一个唯一的编号编号靠前的需要一个字节存储，编号靠后的需要三个字节才能存储，今天小编就来说说关于unicode编码和utf-8的区别?下面更多详细答案一起来看看吧!

unicode编码和utf-8的区别

简洁的语言说简单的事

Unicode 字符集

Unicode 是国际组织制定的可以容纳世界上所有文字和符号的字符集，它定义了文字和二进制的对应关系，并为每个字符分配了一个唯一的编号。编号靠前的需要一个字节存储，编号靠后的需要三个字节才能存储。

注意：Unicode 只是一个字符集，如果要将字符存储到内存，还需要使用UTF字符编码，它规定了如何将文字的编号存储到内存中

UTF 编码

UTF 是 Unicode Transformation Format 的缩写，意思是“Unicode转换格式”

Unicode 可以使用的编码有三种，分别是：

UTF-8：一种变长的编码方案，使用 1~6 个字节来存储；
UTF-16：介于 UTF-8 和 UTF-32 之间，使用 2 个或者 4 个字节来存储，长度既固定又可变。
UTF-32：一种固定长度的编码方案，不管字符编号大小，始终使用 4 个字节来存储；

UTF-8

utf-8 编码规则很简单：如果只有一个字节，那么最高的比特位为 0，兼容ASCII 编码；如果有多个字节，那么第一个字节从最高位开始，连续有几个比特位的值为 1，就使用几个字节编码，剩下的字节均以 10 开头。

单字节编码：0xxxxxxx
双字节编码：110xxxxx 10xxxxxx
三字节编码：1110xxxx 10xxxxxx 10xxxxxx
四字节编码：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-16

UTF-16 将Unicode字符集分成两部分，第一部分对于 Unicode 编号范围在 0 ~ FFFF 之间的字符，使用两个字节存储，并且直接存储 Unicode 编号，不进行编码转换。第二部分对于 Unicode 编号范围在 10000~10FFFF 之间的字符，使用四个字节存储

双字节：xxxxxxxx xxxxxxxx
四字节：110110xx xxxxxxxx 110111xx xxxxxxxx

UTF-32

UTF-32 是固定长度的编码，始终占用 4 个字节，足以容纳所有的 Unicode 字符，所以直接存储 Unicode 编号即可，不需要任何编码转换。浪费了空间，提高了效率

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

秒懂生活

unicode编码和utf-8的区别（聊一下Unicode及UTF-8UTF-16UTF-32）

猜您喜欢

一分钟就会开花的蔬菜（吃了一辈子蔬菜）

珠海ibs国际英语学校（珠海iBS全日制英语）

如果被性骚扰了你该怎么原谅别人（现实生活中你有被性骚扰过吗）

接纳是个过程（你知道什么是接纳吗）

怎么选择一款适合自己的爽肤水（爽肤水很重要哦）

比亚迪的海鸥什么时候发布（带你看比亚迪海鸥）

演唱会假票鉴别（如何避免在音乐节上买到假票）

热门推荐

排行榜