0.0 汉字搭Unicode
处理古僻汉字,就用Unicode字集里向个汉字——目前收录个统一汉字已经有得74394隻。假使箇个里向还寻不着侬要个字,个么就用IDS表示,文章不打印个说话尽量覅自家造字。
Unicode里向搭汉字搭界个字块包括汉日朝统一表意字(CJK、汉统,20940隻)、汉日朝统一表意字扩充甲(Ext-A、扩甲,6582隻)、汉日朝统一表意字扩充乙(Ext-B、扩乙,42711隻)、汉日朝统一表意字扩充丙(Ext-C、扩丙,4149隻)、汉日朝部首增补、汉日朝笔劃、汉日朝兼容表意字、汉日朝兼容表意字增补咾啥。下头阿拉主要讨论汉日朝统一表意字四隻字块七万五千隻汉字个事体。至于一般性个繁体字、异体字,任何支持GBK个输入法(譬方微软、紫光、Google)全好解决,本文不再赘叙。
0.0.1 Unicode里向四块汉日朝统一表意字
Unicode 1.0.1初建“汉日朝统一表意字”时,收字20902隻,Unicode 4.1箇块加著22隻字符,Unicode 5.2箇块又加著16隻。20902隻字符GBK全收入个,22隻字符GB 18030收著8隻部首。个咾汉统压末38隻字符一般性个字库顶多显示8隻,

Unifonts 5.4好显示22隻。

目前还没啥个字库、输入法完整支持汉统20940隻字符,为著讲下头提到啥个字库、输入法,呒没特别说明,“汉统”基本上指20940隻字符个汉统。至于GBK、GB 18030里摆拉私用区个字符此地不考虑。
侭管扩甲搭扩乙里向个字GB 18030全收录了,但是市面上支持扩甲个字库好好较要比支持扩乙、扩丙个多(详见0.1节)。箇个我想主要是因为前者位于Unicode多语基本面(BMP),而位于表意增补面(SIP)个后者处理起来比较複杂,外加字库文件一般只好容纳六万多隻字符——而汉统加著扩甲再加扩乙就要超过七万隻了。
0.0.2 Windows对扩充汉字个支持
Windows系统从2000版开始以UTF-16为机内码,也就是讲从箇隻版本开始支持位于表意增补面个扩乙、扩丙汉字。不过支持归支持,要担佢拉显示出来还要另外寻字库——Win2k发布个辰光扩乙、扩丙还朆建立唻。
至于2000版之前个Windows,只好支持位于多语基本面个汉统搭扩甲。
0.1 字库
上头讲过,有著操作系统对Unicode编码个支持,还要靠相应个字库来显示。下载好字库,除脱exe文件好自动安装之外,字库文件要侬自家拖到Windows\Fonts文件夹里。
0.1.1 宋体-18030
来拉微软针对Windows 2000提供“GB18030 Support Package”里向,用来支持GB 18030:2000字集(汉统+扩甲)。
0.1.2 宋体-方正超大字符集
来拉MS Office XP、2003“简体中文版”里向,收字包括汉统+扩甲+部分扩乙(因为佢是单隻头个字库文件,扩乙只好摆一部分)。
0.1.3 Windows Vista、7里个宋体、细明体、黑体、楷体、仿宋
Windows Vista搭7里向个黑体、楷体、仿宋全是支持GB 18030:2000个(汉统+扩甲),宋体、细明体除脱汉统、扩甲,还支持扩乙。
0.1.4 Unifonts
海峰做个Unifonts 5.4(中日韩汉字超大字符集通用字体支持包)支持汉统+扩甲+扩乙+扩丙,包括宋体搭细明体两套。
Vista以后个宋体字库汉统搭扩甲摆拉SimSun里向,扩乙摆拉SimSun-ExtB里向;而Uniconts扩甲摆拉Sun-ExtA里向,扩乙搭扩丙摆拉Sun-ExtB里向。
0.1.5 楷体-方正超大字符集
来拉文渊阁四库全书电子版3.0里向,汉统+扩甲+扩乙。我也没用过,估计分两隻文件个。
0.1.6 宋体-全汉字集
采采卷耳做个字库,汉统+扩甲+扩乙。
0.1.7 BabelStone Han
Andrew WEST做个字库,对于汉日朝统一表意字朆完全支持,但是汉统压末38隻字符佢全好显示个。

0.2 储存文档注意事项
讲哪恁输入古僻汉字之前,再啰唆两句GBK外汉字哪恁储存个问题。
0.2.1 txt
储存辰光要拣“Unicode”,侬拣“ANSI”只好储存GBK范围个汉字。
0.2.2 html
储存辰光charset要设为“utf-8”,侬写“charset=GB2312”么只好储存GBK范围个汉字。

0.2.3 sql
由于MySQL本身个虱误,用佢做数据库个论坛(譬方Discuz!)、部落(譬方WordPress)通常不支持位于SIP个扩充汉字。个咾好南儿部落对于扩充汉字全用IDS表示,侭管MySQL支持扩甲。
0.2.4 余论
眼门前除脱眼汉语言文字专题论坛、在线汉语辞典、基于Wiki个网站,基本上呒啥网站支持扩充汉字。搜寻引擎里向,Google支持扩充汉字,“更懂中文”个百度不支持。

1.0 寻字
难要正式介绍哪恁输入了。箇节是写畀难般打古僻汉字个铜镬看个。
1.1 “字符映射表”
来拉“附件\系统工具”里向。拣好“字体”,拣中“高级查看”,再拣“字符集”、“分组”。双击需要个字符再点“复制”就好拷到侬需要个地方。不过只好寻寻GBK范围内个汉字。

1.2 MS Word
插入\符号,拣“字体”、“子集”,双击字符就好插入。支持汉统+扩甲+扩乙+扩丙,子集阿拣得着取决于字体,Unifonts扩乙搭扩丙全摆拉Sun-ExtB里向。

1.3 别样Office
2009版个OpenOffice.org Writer“插入\特殊字符”、永中集成Office“插入\符号”、WPS 文字“插入\符号”用法类似MS Word,不过永中搭WPS不支持SIP个扩充汉字。
1.4.1 BabelMap
BabelMap 5.2汉统(完整个20902+38)+扩甲+扩乙+扩丙和总支持,家生菜单里向寻用部首、拼音(北语、粤语)查汉字个效件。
部首寻字当心,只有简化字是用大陆现在个标准数笔劃,繁体字搭朆简化个传承字全要按传统字形数。部首一律式康熙部首。譬方“骚”是马部九劃,“騷”搭“搔”分别是馬部十劃、手部十劃(传统字形“叉”左边还有一点)。

1.4.2 BabelPad
BabelPad 5.2是包括BabelMap个文字编辑器(唯独不包括临时装载字库个功能),当然支持汉统(完整个20902+38)+扩甲+扩乙+扩丙。

2.0 打字
上头箇眼办法侬难般用用呒告,常庄要寻牢衰惰个。箇节就不讲寻字哉,讲哪恁打字。
2.1 紫光华宇拼音输入法
紫光6.6结煞版支持汉统+扩甲+扩乙+扩丙,作兴是汉拼输入法里向独一个。拼音模式、笔劃模式,全好输入。不过拼音模式收字不全个,因为汉日朝统一表意字四隻字块里向有得交关日语、朝鲜语、越南语、壮语、白语个造字,定普通言话读音牢困难个,也呒啥必要。而笔劃模式不受影响,横竖楷书体系个字总归好用“B+h横s竖p撇n捺d点z折”输入个。
记得老早紫光2.01也是顶早支持GBK个输入法之一,当时Windows系统输入法只有全拼输入法支持GBK,但是全拼个效率大家全有数脉个。后首紫光以5.0版重出江湖个辰光,担“大字符集”去脱了话咾,个好南儿也只好放弃了,直到箇两年6.0出现。
2.2 别样拼音输入法
别样拼音输入法也只有眼吴语输入法(譬方上海话输入法)好输入扩充汉字,不过仅限于散拉扩甲、括乙里个吴语常用字。而基于汉拼个输入法顶多通过担自家需要个扩充汉字摆拉“自定义短语”里向个方式来曲线救国,就像好南儿来拉紫光6.5时代所做个尝试。箇種方式要求输入法支持Unicode,“谷歌”拼音输入法、加加输入法可以做到。
2.3 海峰五笔
海峰五笔9.5支持汉统+扩甲+扩乙+扩丙,好拣86咾98个五笔规则。
2.4 别样五笔输入法
菩提五笔支持汉统+扩甲+扩乙+扩丙;小鸭五笔支持汉统+扩甲+扩乙。
2.5 文渊郑码
支持汉统+扩甲+扩乙+扩丙,扩丙作兴有问题。
2.6 山人通用输入法
估计支持汉统+扩甲+扩乙+扩丙,估计汉统是完整个20902+38。输入码是山人全息编码。
2.7 逍遥笔
逍遥笔6.5支持汉统+扩甲+扩乙,手写输入(用鼠标就可以了)。左下角隻数字要拣好——4是GB 2312,5是GBK,6是汉统+扩甲,7再是汉统+扩甲+扩乙。
2.8 五代仓颉
第五代仓颉输入法2008年版支持汉统+扩甲+扩乙。
3.0 网上家生
介绍两隻网站,主要是寻字派用场。
3.1 Unihan
Unicode正网,当然支持顶新版个Unicode,支持汉统(完整个20902+38)+扩甲+扩乙+扩丙。
侬好用罗马字寻(粤语、北语、日语音读搭训读、朝鲜语咾啥),网址我不写——汉字同音字多得了吓煞人,用罗马字寻牢容易死机个。
也好用部首寻,注意事项同1.4.1。
3.2 叶典
叶典高头侬好用“两分法”寻古僻字。譬方要寻“⿱勿好”,侬也用不着想部首是“丿”、“勹”、“女”还是“子”,就打“勿好”寻。

自称支持汉统+扩甲+扩乙+扩丙+扩丁+扩戊。扩丁、扩戊两隻字块Unicode还朆定唻,让佢去。
4.0 Unicode里没个字
碰着Unicode里没个字,网友大概一般会得箇恁描述:““牙合””、“{牙合}”、“左牙右合”……
4.1 IDS
阿拉还是用IDS(Ideographic Description Sequence,表意描述序列)比较好,看上去清爽。
先写隻表示结构个表意描述符,譬方“⿰”,再写箇隻结构里用着个部件“牙合”,併拢来就是“⿰牙合”。
上头箇个字邪气简单,碰着複杂点个结构,要表意描述符(⿰⿱⿲⿳⿴⿵⿶⿷⿸⿹⿺⿻)嵌套组合。譬方“渠”是“⿱⿰氵巨木”——先讲佢是上下结构,再讲佢上头是隻左右结构个部件,左边是“氵”,右边是“巨”,左右结构描述完成,再讲上下结构下头是“木”。而“渠”加著“亻”个后起本字就好描述成“⿰亻⿱⿰氵巨木”。再複杂点,山西種面个名字(“biangbiang面”)就是“⿺辶⿳穴⿲月⿱⿲幺言幺⿲長馬長刂心”。
4.2 造字
文章要打印出来,个没办法。假使网络高头传来传去、电脑高头看看就可以了,个么还是覅去造字。因为造出来个字侬臺电脑高头好看,传畀人家,人家看不出。举隻例子,比较啰唆,可以覅看——因为好南儿例子举好也不会讲解造字个。
09年7月27号个《新民周刊》有篇王悦阳个《寻觅上海记忆》,来拉“谁是张承裕?”一节里向提到“张聋⿱彭耳”。“⿱彭耳”是隻上“彭”下“耳”个字,其实箇个字扩充乙块里有拉,但像煞排印个辰光是另外造字个,网上登出来个是“张聋■”。虽然讲佢拉造个字阿拉看不到,但是凭吴语语感猜得出隻缺字是“⿱彭耳”。凤凰网转载,担“■”当垃圾和总去脱,难么读者就不晓得缺脱隻字。人民网转载还要嗲,担所有“张聋■”改成功“张承裕”、“张”。本生一句“张聋■这个古怪的名字的由来本身就充满着传奇色彩”变成功“张承裕这个古怪的名字……”,也不晓得“张承裕”箇个名字怪拉啥地方。
5.0 参考
白云深处人家《計算機漢字處理基本知識 漢字字體下載》

2010/01/31 at 23:35
您好!本人写了个《汉字大全》的字典,有人推荐您的网站。
请问您是哪里人?不知用的何处方言?
感觉您在汉字方面有很深积累,向您学习和请教。
我想转载改编您的这篇文章为国文到我的blog中,是否有问题?
我的网站是http://blog.csdn.net/ablo_zhou
2010/02/01 at 20:47
用的是吴语,具体行文以上海话为主。
别夸我,我装得深而已,其实浅得很。
翻译注明原作者、给个链接就可以了。
2010/02/16 at 22:39
您过谦了。我花了一个晚上翻译您这篇文章,并转载到我的blog上。
因为不懂吴语,可能有些地方不到位,请指正。谢谢!
地址:
http://blog.csdn.net/ablo_zhou/archive/2010/02/16/5309912.aspx
2010/02/17 at 20:52
“图文并茂,是篇很好的文章。”过奖了,自己觉得还比较凌乱,改天我还得修修。
周兄的译文除了二处不打紧的细节,基本无误。不过普通话读者或许会觉得江浙气息还是很重。;-)
2010/02/18 at 01:41
根据您的意思进行了修改。我基本遵从您文章原貌,只改了一些用语习惯和普通话费解的地方。江浙气息浓应该没有问题,作者就是江浙人嘛。
您指出的地方正好是我猜不出意思的地方。谢谢!
我也很赞成您保存地方文化的思想。虽然没有落实到用方言写作,不过方言里面所蕴含的文化背景,不是其他的语言所能尽表的。大一统并非好事,这意味着文化的湮灭。
2010/02/19 at 12:44
很高兴认识周兄这样理解文化多样性意义的IT人士。