国际音标处理·字库

1.0 字库

一般只要装好合适个字库(担下载好个字库文件拖到Windows\Fonts文件夹里)就好显示国际音标了。

1.0.1 分类

本文担音标字库按照是否映射尤一码(Unicode)字符分成功尤一码字库搭非尤一码字库两大类,前者再分两隻小类。

1.0.2 为啥提倡用尤一码字库

非尤一码来拉汉字处理方面容易出现个问题好南儿也讲过两趟(),处理国际音标道理差大勿多。非尤一码字库往往是第一種情况,佢个音标字符占用著尤一码里“基本拉丁字母”“拉丁-1增补”两隻字块别样字符个码点。造成个后果是:勿装特定字库,音标看上去蛮正常个(就是看勿懂是何里種语言);一旦格式落脱(譬方以txt文件储存),就算字库装好要担音标从字母丛里恢復出来也吃力煞。

Read the rest of this entry »

BabelMap 6.0搭BabelPad 6.0汉化版

Windows高头古僻汉字输入方法

0.0 要点指南

  1. 0.2.4 Unifonts
  2. 0.3.1 txt
  3. 1.4.2 BabelPad
  4. 2.1 紫光华宇拼音输入法
  5. 2.3 海峰五笔
  6. 2.7 逍遥笔
  7. 3.2 叶典
  8. 4.1 表意描述序列

Read the rest of this entry »

完全支持扩充汉字个输入法——紫光6.6结煞版发布

昨日夜到,紫光华宇拼音输入法6.6.0.31版发布。顶大隻特点就是Unicode 5.2里个汉语汉字(即不包括日语、朝鲜语、越南语造字)全纳入输入法主体(即好用拼音模式输出,6.6.0.4版只好用笔劃模式输出),作兴佢是首款编码基于汉拼好打扩充汉字个拼音输入法。老早有两隻吴语输入法(譬方上海话输入法)也支持扩充汉字,不过收字仅限于吴语常用字,而紫光6.6担扩充甲块、乙块、丙块里个汉语汉字和总收拉。

总字数从两万变到七万个同时,紫光还对“输出集合”个拣权进行调整。老早输出集合分“简体”、“繁体”搭“大字符集”,箇歇是“简体”、“繁体”搭“超大字符集”。看上去差不多,其实大不一样。老早个“简体”指个是GB 2312(罪过八拉只有六千多隻汉字),“大字符集”指个是GBK(有得两万多隻),而“繁体”基本上是两者个差集。箇歇全集是“超大字符集”(七万多隻汉字),“简体”是全集去脱《简化字总表》里个繁体字,“繁体”是全集去脱《简化字总表》里个新造简化字。
Read the rest of this entry »

汉字十讲

古文字、今文字

汉字字体演化大致可分为两个阶段——古文字和今文字。前者包含甲骨文、金文、小篆等,后者包含隶书、楷书等。

evolution-ng

当然,演化是渐进的,你也可以把小篆和隶书抽出来组成一个过渡阶段。演化也不是单线进行的,各个时代都有不同的字体并存,甲骨文、金文、小篆未必在演化的主线上。

甲、金文很可能不是商、周时期的通用字体,而是因材料和内容的特殊性而和通用字体有一定差异的专用字体,只是由于其材料适于保存故而今天看来像是主流。小篆也不是秦代的通用字体,而是秦政府对先秦文字系统化、规范化整理后的产物。秦代的通用字体隶书和小篆没什么渊源关系,早在春秋末期,汉字已经开始隶化。

Read the rest of this entry »

Unicode 5.2发布——附BabelMap 5.2汉化版

10月1号,Unicode协会发布Unicode 5.2版,同一日Andrew WEST发布支持新版Unicode个BabelMap(墙外)。

Unicode 5.2

Unicode 5.2加著6648隻字符、15種文字。

六千多隻字符里向,4149隻汉字(广义个)构成“汉日朝统一表意字扩充丙块”(CJK Unified Ideographs Extension C),“汉日朝统一表意字”新增8隻,箇恁统一汉字总数达到74394;“汉日朝兼容表意字”新增3隻。

BabelMap 5.2

BabelMap是隻Windows高头免费个字符映射图用件,居著佢侬好查看Unicode里向所有个字符,佢还有得眼颜色色箇方面个独特功能。

Read the rest of this entry »

紫光华宇拼音输入法6.6.0.4版支持七万汉字

昨天傍晚,紫光华宇拼音输入法6.6.0.4版开始内测。

比起6.5版(鉴于用户词库稳定性问题,好南儿介绍了内测版后未推荐其正式版),6.6版在双拼、词库、配置界面、自定义短语、辅助输入等方面做了改进——

删除词语现在会遍历所有词库,词库自动更新也支持http代理服务器了。

配置界面不再像之前那样用无谓的多级目录,现在单击设置程序左侧的一级目录即可进行详细设置。

紫光将日益庞大的自定义短语分为七个库,且不可编辑、删除,但可以关闭。真正由用户“自定义”的短语记入“用户短语”或是别的新建短语库。

对于好南儿部落文字处理栏目的读者来说,6.6版一个较大的亮点便是笔画模式支持Unicode的全部七万汉字(即包括Ext-A、Ext-B,但不包括Ext-C)。不过笔画模式在Windows 7下不稳定,用着用着就不行了,连GBK汉字都无法显示。

此外,Shift键终于支持上屏了,但反斜杠键依然不支持上屏,而是维持跳至字首页功能。换句话说,如果你习惯用键输入顿号,那就无法靠顿号上屏。至于跳至字首页,0键就是这个功能,不知紫光为何要再搭上反斜杠键……

Unicode十讲(下)

上趟讲个全是Unicode史前个事体,难要正式讲Unicode哉。

ISO/IEC 10646、UCS、Unicode

上个世纪80年代,ISO开始制订能够担世界上文字何总收录个国际标准——ISO/IEC 10646:Universal Multiple-Octet Coded Character Set(通用多八柲编码字集,简称UCS),沿用ISO/IEC 2022个结构。草案一公布,美国部分信技厂商就表示反对,佢拉另外搞隻新结构个世界性编码字集标准——Unicode。

Unicode有得“统一码”、“万国码”等译名。Unicode正网话:“Unicode provides a unique number for every character”,又话:“Earliest documented use of the term "Unicode" coined by Becker; from unique, universal, and uniform character encoding.”箇恁看来,“Unicode”作兴翻成功“尤一码”比较好。

IBM、DEC、Sun Micro、Xerox、Apple、MicroSoft、Novell咾啥一淘出资成立个Unicode协会不断绕UCS个工作组WG2,后者最终改用Unicode个编码结构,担Unicode 1.0.0併进UCS个〇〇面。之后字符收集、编码、整理工作由WG2做,Unicode协会协助佢,Unicode字集、编码搭UCS保持一致。

新编码个字符一经WG2审议通过,Unicode协会就会发布新个Unicode标准,而ISO/IEC方面要再过两道票决关再好发布新个ISO/IEC 10646。ISO/IEC 10646只是大致制订字集编码个标准,Unicode标准则规定哪恁传输、储存箇眼编码,还详细介绍每隻字符个各项特性,再加上Unicode隻名字比ISO/IEC 10646、UCS咾啥通俗,个么伲平常多数就讲“Unicode”而不用ISO个名字。

课外阅读:曾士熊、魏林梅《Unicode和UCS(ISO/IEC 10646)》

UCS-4、UCS-2、BMP、SMP、SIP、TIP、SSP

Read the rest of this entry »

Posted in 文字处理. 标签: , , , . 2 Comments »

Unicode十讲(上)

好南儿常庄话起Unicode,个么啥叫啥Unicode呢,佢好派啥个用场?不大清爽个铜镬今朝看过好南儿写个字符编码方面十节内容就……更加搞不清爽了。汗。

字符、字集、字体、字库搭bit、byte

此地讲个全是信息技术方面个概念,不涉及佢拉来拉别个领域个概念。

字符(character)就是侬箇歇看到个句子里头一隻隻物事。“字”是一隻字符,“符”也是一隻字符,“(”是一隻字符,“c”也是一隻字符。除脱汉字、字母、数字、标点搭著别个样样式式符号,还有眼特殊个字符——控制符,譬方“回车”、“退格”、“删脱”咾啥。

字集(character set)是字符个集合。有種字集是封闭个,定好著就不好再加字符,譬方ASCII;有種呢是开放个,譬方Unicode。

字体(typeface、font)是字符个风格式样。

字库(computer font)是字集内若干字符以某種字体储存拉一淘个集合。居著字库,电脑再好显示字符。

来拉电脑内部,信息全是以“bit”储存个。一隻bit表示0或者1两種状态个一種。一隻字集假使用七隻bit来编码,个么顶多好摆2⁷拢共一百廿八隻字符。

若干隻bit组成“byte”。现在一般全讲8 bits=1 byte,不过一开始不是箇恁介个。像ISO/IEC 646制订个年代,7 bit byte是不行个。为著吃准足,一眼信息技术个标准全是讲“octet”(八隻bit)个,不讲“byte”。

“bit”、“byte”大陆北语搭臺湾北语分别翻成功“比特”、“字节”搭“位元”、“位元组”。我担“bit”翻成功“柲”——毗必切(bih),偶也;“byte”翻成功“棑”——薄佳切(bā),筏也。

ASCII、ISO/IEC 646

Read the rest of this entry »

用紫光输入法直接打扩充汉字、国际音标、谚文

紫光华宇拼音输入法7月7号发布个6.5.0.10内测版顶让好南儿激动个就是佢开始支持Unicode哉,箇个也是佢迈向7.0版个重要一步。
支持Unicode,一方面好让非“简体中文”版个Windows用户直接使用紫光输入法,再也覅去改啥“系统区域”了;另外方面,老早牢难打个字符也好用紫光输入法打了。后者就是好南儿今朝要详细讲个。

拼音输入法绝大多数只支持GB2312、GBK,交关字符由于朆收拉GBK里向,阿拉就呒没办法用输入法直接或者间接(“自定义短语”)输入。箇眼字符包括国际音标、朝鲜语(“韩语”)个谚文、扩充个汉日朝越表意文字……
有著紫光6.5,箇眼字符全好输入哉。
unispim-6-51
Read the rest of this entry »