Unicode 同盟(Unicode Consortium)开拓了 Unicode 标准(Unicode Standard)。
他们的目标是利用标准的 Unicode 转换格式(即 UTF,全称 Unicode Transformation Format)取代现有的字符集。

Unicode 标准是一个成功的创举,在 HTML、XML、Java、JavaScript、E-mail、ASP、PHP 中都得到实现。
Unicode 标准也得到许多操作系统和所有当代浏览器的支持。

Unicode 同盟与领先的标准开拓组织互助,这些组织有 ISO、W3C 和 ECMA。

htmlutf8中文乱码HTML UnicodeUTF8参考手册 Docker

Unicode 字符集

Unicode 可以由不同的字符集实现。
最常用的编码是 UTF-8 和 UTF-16:

字符集描述UTF-8UTF8 中的字符可以是 1 到 4 字节长。
UTF-8 可以代表 Unicode 标准中的任何字符。
UTF-8 向后兼容 ASCII。
UTF-8 是电子邮件和网页的首选编码。
UTF-1616 位 Unicode 转换格式是一种可变长度的 Unicode 字符编码,能够编码全体 Unicode 指令表。
UTF-16 紧张用于操作系统和环境,如 Microsoft Windows、Java 和 .NET。

提示:Unicode 的前 128 个字符(与 ASCII 逐一对应)利用一个与 ASCII二进制值相同的八位组进行编码,使有效的 ASCII 文本在进行 UTF-8 编码时也是有效的。

提示:所有的 HTML 4 处理器支持 UTF-8,所有的 HTML 5 和 XML 处理器支持 UTF-8 和 UTF-16!

HTML5 标准:Unicode UTF-8

由于 ISO-8859 中字符集大小是有限的,且在多措辞环境中不兼容,以是 Unicode 同盟开拓了 Unicode 标准。

Unicode 标准覆盖了(险些)所有的字符、标点符号和符号。

Unicode 使文本的处理、存储和运输,独立于平台和措辞。

HTML-5 中默认的字符编码是 UTF-8。

下面列出了一些 HTML5 支持的 UTF-8 字符集:

字符集十进制十六进制C0 掌握与基本的 Latin(C0 Controls and Basic Latin)0-1270000-007FC1 掌握与 Latin-1 的补充(C1 Controls and Latin-1 Supplement)128-2550080-00FFLatin 扩展 A(Latin Extended-A)256-3830100-017FLatin 扩展 B(Latin Extended-B)384-5910180-024F

如果 HTML5 网页利用不同于 UTF-8 的字符,则须要在 <meta> 标签中指定,如下:

实例

<meta charset=\"大众ISO-8859-1\"大众>

如您还有不明白的可以不才面与我留言或是与我磋商QQ群308855039,我们一起飞!