现在大部分具有国际化特色的软件核心字符处理都因此 Unicode 为根本的,在软件运行时根据当时的ocale/Lang/Codepage 设置确定相应确当地字符编码设置,并依此处理本地字符。在处理过程中须要实现 Unicode 和本地字符集的相互转换,甚或以 Unicode 为中间的两个不同本地字符集的相互转换。这种办法在网络环境下被进一步延伸,任何网络两端的字符信息也须要根据字符集的设置转换成可接管的内容。
数据库中的字符集编码问题
盛行的关系数据库系统都支持数据库字符集编码,也便是说在创建数据库时可以指定它自己的字符集设置,数据库的数据以指定的编码形式存储。当运用程序访问数据时,在入口和出口处都会有字符集编码的转换。对付中文数据,数据库字符编码的设置应该担保数据的完全性。GB2312、GBK、UTF-8 等都是可选的数据库字符集编码; 当然我们也可以选择 ISO8859-1 (8-bit),只是我们得在应
用程序写数据之前先将 16Bit 的一个汉字或 Unicode 拆分成两个 8-bit 的字符,读数据之后也须要将两个字节合并起来,同时还要判别个中的 SBCS 字符,因此我们并不推举采取 ISO8859-1 作为数据库字符集编码。这样不但没有充分利用数据库自身的字符集编码支持,而且同时也增加了编程的繁芜度。编程时,可以先用数据库管理系统供应的管理功能检讨个中的中文数据是否精确。
PHP 程序在查询数据库之前,首先实行 mysql_query(\公众SET NAMES xxxx\"大众); 个中 xxxx 是你网页的编码(charset=xxxx),如果网页中 charset=utf8,则 xxxx=utf8,如果网页中 charset=gb2312,则xxxx=gb2312,险些所有 WEB 程序,都有一段连接数据库的公共代码,放在一个文件里,在这文件里,加入 mysql_query(\"大众SET NAMES xxxx\"大众) 就可以了。
SET NAMES 显示客户端发送的 SQL 语句中利用什么字符集。因此,SET NAMES 'utf-8' 语句见告做事器\"大众将来从这个客户端传来的信息采取字符集 utf-8\"大众。它还为做事器发送回客户真个结果指定了字符集(例如,如果你利用一个 SELECT 语句,它表示列值利用了什么字符集)。
定位问题时常用的技巧
定位中文编码问题常日采取最笨的也是最有效的办法―在你认为有嫌疑的程序处理后打印字符串的内码。通过打印字符串的内码,你可以创造什么时候中笔墨符被转换成 Unicode,什么时候Unicode 被转回中文内码,什么时候一个中笔墨成了两个 Unicode 字符,什么时候中笔墨符串被转成了一串问号,什么时候中笔墨符串的高位被截掉了……
取用得当的样本字符串也有助于区分问题的类型。如:\公众aa啊 aa?@aa\公众 等中英相间,GB、GBK特色字符均有的字符串。一样平常来说,英笔墨符无论怎么转换或处理,都不会失落真(如果碰着了,可以考试测验着增加连续的英笔墨母长度)。
办理各种运用的乱码问题
1) 利用标签设置页面编码
这个标签的浸染是声明客户真个浏览器用什么字符集编码显示该页面,xxx 可以为 GB2312、GBK、UTF-8(和 MySQL 不同,MySQL 是 UTF8)等等。因此,大部分页面可以采取这种办法来见告浏览器显示这个页面的时候采取什么编码,这样才不会造成编码缺点而产生乱码。但是有的时候我们会创造有了这句还是弗成,不管 xxx 是哪一种,浏览器采取的始终都是一种编码,这个情形我后面会商到。
请把稳, 是属于 HTML 信息的,仅仅是一个声明,仅表明做事器已经把 HTML 信息传到了浏览器。
2) header(\"大众content-type:text/html; charset=xxx\"大众);
这个函数 header 的浸染是把括号里面的信息发到 http 标头。如果括号里面的内容为文中所说那样,那浸染和 标签基本相同,大家对照第一个看创造字符都差不多的。但是不同的是如果有这段函数,浏览器就会永久采取你所哀求的 xxx 编码,绝对不会不听话,因此这个函数是很有用的。为什么会这样呢?那就得说说 http 标头和 HTML信息的差别了:
http 标头是做事器以 http 协议传送 HTML 信息到浏览器前所送出的字串。而 标签是属于 HTML 信息的,以是 header 发送的内容先到达浏览器,普通点便是 header 的优先级高于 (不知道可不可以这样讲)。如果一个PHP页面既有header(\公众content-type:text/html; charset=xxx\"大众),又有,浏览器就只认前者 http 标头而不认 meta 了。当然这个函数只能在PHP页面内利用。
同样也留有一个问题,为什么前者就绝对起浸染,而后者有时候就弗成呢?这便是接下来要谈的Apache 的缘故原由了。
3) AddDefaultCharset
Apache 根目录的 conf 文件夹里,有全体 Apache 的配置文档 httpd.conf。
用文本编辑器打开 httpd.conf,第 708 行(不同版本可能不同)有 AddDefaultCharset xxx,xxx为编码名称。这行代码的意思:设置全体做事器内的网页文件 http 标头里的字符集为你默认的 xxx字符集。有这行,就相称于给每个文件都加了一行 header(\公众content-type:text/html; charset=xxx\"大众)。这下就明白为什么明明 设置了是 utf-8,可浏览器始终采取 gb2312 的缘故原由。
如果网页里有 header(\"大众content-type:text/html; charset=xxx\公众),就把默认的字符集改为你设置的字符集,以是这个函数永久有用。如果把 AddDefaultCharset xxx 前面加个\"大众#\"大众,注释掉这句,而且页面里不含 header(\公众content-type…\"大众),那这个时候就轮到 meta 标签起浸染了。
下面列出以上的优先顺序:
.. header(\"大众content-type:text/html; charset=xxx\"大众)
.. AddDefaultCharset xxx
..
如果你是 web 程序员,建议给你的每个页面都加个header(\"大众content-type:text/html; charset=xxx\公众),这样就可以担保它在任何做事器都能精确显示,可移植性也比较强。
4)PHP.ini 中的 default_charset 配置:
php.ini 中的 default_charset = \"大众gb2312\"大众 定义了PHP的默认措辞字符集。一样平常推举注释掉此行,让浏览器根据网页头中的 charset 来自动选择措辞而非做一个逼迫性的规定,这样就可以在同台做事器上供应多种措辞的网页做事。
结束语
实在PHP开拓中的中文编码并没有想像的那么繁芜,虽然定位和解决问题没有定规,各种运行环境也各不尽然,但后面的事理是一样的。理解字符集的知识是办理字符问题的根本。不过,随着中笔墨符集的变革,不仅仅是PHP编程,中文信息处理中的问题还是会存在一段韶光的。
本站文章除注明转载外,均为本站原创或翻译