上趟讲个全是Unicode史前个事体,难要正式讲Unicode哉。
ISO/IEC 10646、UCS、Unicode
上个世纪80年代,ISO开始制订能够担世界上文字何总收录个国际标准——ISO/IEC 10646:Universal Multiple-Octet Coded Character Set(通用多八柲编码字集,简称UCS),沿用ISO/IEC 2022个结构。草案一公布,美国部分信技厂商就表示反对,佢拉另外搞隻新结构个世界性编码字集标准——Unicode。
Unicode有得“统一码”、“万国码”等译名。Unicode正网话:“Unicode provides a unique number for every character”,又话:“Earliest documented use of the term "Unicode" coined by Becker; from unique, universal, and uniform character encoding.”箇恁看来,“Unicode”作兴翻成功“尤一码”比较好。
IBM、DEC、Sun Micro、Xerox、Apple、MicroSoft、Novell咾啥一淘出资成立个Unicode协会不断绕UCS个工作组WG2,后者最终改用Unicode个编码结构,担Unicode 1.0.0併进UCS个〇〇面。之后字符收集、编码、整理工作由WG2做,Unicode协会协助佢,Unicode字集、编码搭UCS保持一致。
新编码个字符一经WG2审议通过,Unicode协会就会发布新个Unicode标准,而ISO/IEC方面要再过两道票决关再好发布新个ISO/IEC 10646。ISO/IEC 10646只是大致制订字集编码个标准,Unicode标准则规定哪恁传输、储存箇眼编码,还详细介绍每隻字符个各项特性,再加上Unicode隻名字比ISO/IEC 10646、UCS咾啥通俗,个么伲平常多数就讲“Unicode”而不用ISO个名字。
课外阅读:曾士熊、魏林梅《Unicode和UCS(ISO/IEC 10646)》
UCS-4、UCS-2、BMP、SMP、SIP、TIP、SSP
Read the rest of this entry »