Windows高头古僻汉字输入方法

0.0 要点指南

  1. 0.2.4 Unifonts
  2. 0.3.1 txt
  3. 1.4.2 BabelPad
  4. 2.1 紫光华宇拼音输入法
  5. 2.3 海峰五笔
  6. 2.7 逍遥笔
  7. 3.2 叶典
  8. 4.1 表意描述序列

0.1 汉字搭Unicode

处理古僻汉字,就用Unicode字集里向个汉字——目前收录个统一汉字已经有得74394隻。假使箇个里向还寻勿着侬要个字,个么就用IDS表示,文章勿打印个说话尽量覅自家造字。

Unicode里向搭汉字搭界个字块包括汉日朝统一表意字(汉统)、汉日朝统一表意字扩充甲(扩甲)、汉日朝统一表意字扩充乙(扩乙)、汉日朝统一表意字扩充丙(扩丙)、汉日朝部首增补、汉日朝笔劃、汉日朝兼容表意字、汉日朝兼容表意字增补咾啥。下头阿拉主要讨论汉日朝统一表意字四隻字块七万五千隻汉字个事体。至于一般性个繁体字、异体字,任何支持GBK个输入法侪好解决(譬方微软、紫光、Google),本文勿再赘叙。

0.1.1 Unicode里向四隻汉日朝统一表意字块

 

字面 字块 字数 汉字方面相当个中国标准
多语基本面(BMP) 汉统(CJK) 后首增收38      
初建20902 GBK  GB 18030:2000  GB 18030:2005 
扩甲(Ext-A) 6582  
表意增补面(SIP) 扩乙(Ext-B) 42711    
扩丙(Ext-C) 4149      

Unicode 1.0.1初建“汉日朝统一表意字”时,收字20902隻,Unicode 4.1箇块加著22隻字符,Unicode 5.2箇块又加著16隻。20902隻字符GBK侪收入个,22隻字符GB 18030收著8隻部首。个咾汉统压末38隻字符一般性个字库顶多显示8隻,

cjk-20902-8
Unifonts 5.4好显示22隻。

cjk-20902-22

目前还没啥个字库、输入法完整支持汉统20940隻字符,为著讲下头提到啥个字库、输入法,呒没特别说明,“汉统”是指20902隻字符个汉统。至于GBK、GB 18030里摆拉私用区(PUA)个字符此地勿考虑。

侭管扩甲搭扩乙里向个字GB 18030侪收录了,但是市面上支持扩甲个字库好好较要比支持扩乙、扩丙个多(详见0.2节)。箇个我想主要是因为前者位于Unicode多语基本面,而位于表意增补面个后者处理起来比较複杂,外加字库文件一般只好容纳六万多隻字符——而汉统加著扩甲再加扩乙就要毛七万了。

0.1.2 Windows对扩充汉字个支持

Windows系统从2000版开始以UTF-16为机内码,也就是讲从箇隻版本开始支持位于表意增补面个扩乙、扩丙汉字。不过支持归支持,要担佢拉显示出来还要另外寻字库——Win2k发布个辰光扩乙、扩丙还朆建立唻。

至于2000版之前个Windows,只好支持位于多语基本面个汉统搭扩甲。

0.2 字库

上头讲过,有著操作系统对Unicode编码个支持,还要靠相应个字库来显示。下载好字库,除脱exe文件好自动安装之外,字库文件要侬自家拖到Windows\Fonts文件夹里。

0.2.1 宋体-18030

来拉微软针对Windows 2000提供“GB18030 Support Package”里向,用来支持GB 18030:2000字集(汉统+扩甲)。

0.2.2 宋体-方正超大字符集

来拉MS Office XP、2003“简体中文版”里向,收字包括汉统+扩甲+部分扩乙(因为佢是单隻头个字库文件,扩乙只好摆一部分)。

0.2.3 Windows Vista、7里个宋体、细明体、黑体、楷体、仿宋

Windows Vista搭7里向个黑体、楷体、仿宋侪是支持GB 18030:2000个(汉统+扩甲),宋体、细明体除脱汉统、扩甲,还支持扩乙

0.2.4 Unifonts

海峰做个Unifonts 5.4(中日韩汉字超大字符集通用字体支持包)支持汉统+扩甲+扩乙+扩丙,包括宋体搭细明体两套。

直接下载

Vista以后个宋体字库汉统搭扩甲摆拉SimSun里向,扩乙摆拉SimSun-ExtB里向;而Uniconts扩甲摆拉Sun-ExtA里向,扩乙搭扩丙摆拉Sun-ExtB里向。

0.2.5 楷体-方正超大字符集

来拉文渊阁四库全书电子版3.0里向,汉统+扩甲+扩乙。分两隻文件。

下载页面

0.2.6 宋体-全汉字集

采采卷耳做个字库,汉统+扩甲+扩乙

直接下载

0.2.7 BabelStone Han

Andrew WEST做个字库,对于汉日朝统一表意字朆完全支持,但是汉统压末38隻字符佢侪好显示个。
cjk-20902-38

直接下载

0.3 储存文档注意事项

讲哪恁输入古僻汉字之前,再啰唆两句GBK外汉字哪恁储存个问题。txt-unicode

0.3.1 txt

储存辰光要拣“Unicode”,侬拣“ANSI”只好储存GBK范围个汉字。

0.3.2 html

储存辰光charset要设为“utf-8”,侬写“charset=GB2312”么只好储存GBK范围个汉字。
charset-utf-8

0.3.3 sql

由于MySQL本身个虱误,用佢做数据库个论坛(譬方Discuz!)、部落(譬方WordPress)通常勿支持位于表意增补面个扩充汉字。个咾好南儿部落对于扩充汉字侪用表意描述序列表示,侭管MySQL支持扩甲。

0.3.4 余论

眼门前除脱眼汉语言文字专题论坛、在线汉语辞典、基于Wiki个网站,基本上呒啥网站支持扩充汉字。搜寻引擎里向,Google支持扩充汉字,“更懂中文”个百度勿支持。
du-in-google-baidu

1.0 寻字

难要正式介绍哪恁输入了。箇节是写畀难般打古僻汉字个铜镬看个。

1.1 “字符映射表”

来拉“附件\系统工具”里向。拣好“字体”,拣中“高级查看”,再拣“字符集”、“分组”。双击需要个字符再点“复制”就好拷到侬需要个地方。不过只好寻寻GBK(汉统)范围内个汉字。
charmap

1.2 MS Word

插入\符号,拣“字体”、“子集”,双击字符就好插入。支持汉统+扩甲+扩乙+扩丙,子集阿拣得着取决于字体,Unifonts扩乙搭扩丙侪摆拉Sun-ExtB里向。
insert-characters-in-word

1.3 别样Office

2009版个OpenOffice.org Writer“插入\特殊字符”、永中集成Office“插入\符号”、WPS 文字“插入\符号”用法类似MS Word,不过永中搭WPS勿支持表意增补面个扩充汉字。

1.4.1 BabelMap

BabelMap 5.2汉统(完整个20902+38)+扩甲+扩乙+扩丙和总支持,家生菜单里向寻用部首、拼音(北语、粤语)查汉字个效件

部首寻字当心,只有简化字是用大陆现在个标准数笔劃,繁体字搭朆简化个传承字侪要按传统字形数。部首一律式康熙部首。譬方“骚”是马部九劃,“騷”搭“搔”分别是馬部十劃、手部十劃(传统字形“叉”左边还有一点)。
babelmap-5-2-ii

下载页面

1.4.2 BabelPad

BabelPad 5.2是包括BabelMap个文字编辑器(唯独勿包括临时装载字库个功能),当然支持汉统(完整个20902+38)+扩甲+扩乙+扩丙
unispim-6-51

下载页面

2.0 打字

上头箇眼办法侬难般用用呒告,常庄要寻牢衰惰个。箇节就勿讲寻字哉,讲哪恁打字。

2.1 紫光华宇拼音输入法

紫光6.6结煞版支持汉统+扩甲+扩乙+扩丙,作兴是汉拼输入法里向独一个。拼音模式、笔劃模式,侪好输入。不过拼音模式收字勿全个,因为汉日朝统一表意字四隻字块里向有得交关日语、朝鲜语、越南语、壮语、白语个造字,定普通言话读音牢困难个,也呒啥必要。而笔劃模式勿受影响,横竖楷书体系个字总归好用“B+h横s竖p撇n捺d点z折”输入个。unispim-6-6-0-38

记得老早紫光2.01也是顶早支持GBK个输入法之一,当时Windows系统输入法只有全拼输入法支持GBK,但是全拼个效率大家侪有数脉个。后首紫光以5.0版重出江湖个辰光,担“大字符集”去脱了话咾,个好南儿也只好放弃了,直到箇两年6.0出现。

下载页面

2.2 别样拼音输入法

别样拼音输入法也只有眼吴语输入法(譬方上海话输入法)好输入扩充汉字,不过仅限于散拉扩甲、括乙里个吴语常用字。而基于汉拼个输入法顶多通过担自家需要个扩充汉字摆拉“自定义短语”里向个方式来曲线救国,就像好南儿来拉紫光6.5时代所做个尝试。箇種方式要求输入法支持Unicode,“谷歌”拼音输入法加加输入法可以做到。

2.3 海峰五笔

海峰五笔9.5支持汉统+扩甲+扩乙+扩丙,好拣86咾98个五笔规则。

直接下载

2.4 别样五笔输入法

菩提五笔支持汉统+扩甲+扩乙+扩丙;小鸭五笔支持汉统+扩甲+扩乙。

2.5 文渊郑码

支持汉统+扩甲+扩乙+扩丙,扩丙作兴有问题。

下载页面

2.6 山人通用输入法

估计支持汉统+扩甲+扩乙+扩丙,估计汉统是完整个20902+38。输入码是山人全息编码。

下载页面

2.7 逍遥笔xiaoyaobi-6-5

逍遥笔6.5支持汉统+扩甲+扩乙,手写输入(用鼠标就可以了)。左下角隻数字要拣好——4是GB 2312,5是GBK,6是汉统+扩甲,7再是汉统+扩甲+扩乙。

直接下载

2.8 五代仓颉

第五代仓颉输入法2008年版支持汉统+扩甲+扩乙

下载页面

2.9 和码

和码大字符集版(和码4.4版)支持汉统+扩甲+扩乙。输入码是和码

直接下载

3.0 网上家生

介绍两隻网站,主要是寻字派用场。

3.1 Unihan

Unicode正网,当然支持顶新版个Unicode,支持汉统(完整个20902+38)+扩甲+扩乙+扩丙

侬好用罗马字寻(粤语、北语、日语音读搭训读、朝鲜语咾啥),网址我勿写——汉字同音字多得了吓煞人,用罗马字寻牢容易死机个。

也好用部首寻,注意事项同1.4.1。

3.2 叶典

叶典高头侬好用“两分法”寻古僻字。譬方要寻“⿱勿好”,侬也用勿着想部首是“丿”、“勹”、“女”还是“子”,就打“勿好”寻。
yedict-com
自称支持汉统+扩甲+扩乙+扩丙+扩丁+扩戊。扩丁、扩戊两隻字块Unicode还朆定唻,让佢去。

4.0 Unicode里没个字

碰着Unicode里没个字,网友大概一般会得箇恁描述:““牙合””、“{牙合}”、“左牙右合”……

4.1 表意描述序列

阿拉还是用IDS(Ideographic Description Sequence,表意描述序列)比较好,看上去清爽。

先写隻表示结构个表意描述符,譬方“⿰”,再写箇隻结构里用着个部件“牙合”,併拢来就是“⿰牙合”。

上头箇个字邪气简单,碰着複杂点个结构,要表意描述符(⿰⿱⿲⿳⿴⿵⿶⿷⿸⿹⿺⿻)嵌套组合。譬方“渠”是“⿱⿰氵巨木”——先讲佢是上下结构,再讲佢上头是隻左右结构个部件,左边是“氵”,右边是“巨”,左右结构描述完成,然而讲上下结构下头是“木”。而“渠”加著“亻”个后起本字就好描述成“⿰亻⿱⿰氵巨木”。再複杂点,山西種面个名字(“biangbiang面”)就是“⿺辶⿳穴⿲月⿱⿲幺言幺⿲長馬長刂心”。

4.2 造字

文章要打印出来,个没办法。假使网络高头传来传去、电脑高头看看就可以了,个么还是覅去造字。因为造出来个字侬臺电脑高头好看,传畀人家,人家看勿出。举隻例子,比较啰唆,可以覅看——因为好南儿例子举好也勿会讲解造字个。

09年7月27号个《新民周刊》有篇王悦阳个《寻觅上海记忆》,来拉“谁是张承裕?”一节里向提到“张聋⿱彭耳”。“⿱彭耳”是隻上“彭”下“耳”个字,其实箇个字扩充乙块里有拉,但像煞排印个辰光是另外造字个,网上登出来个是“张聋■”。虽然讲佢拉造个字阿拉看勿到,但是凭吴语语感猜得出隻缺字是“⿱彭耳”。凤凰网转载,担“■”当垃圾和总去脱,难么读者就勿晓得缺脱隻字。人民网转载还要嗲,担所有“张聋■”改成功“张承裕”、“张”。本生一句“张聋■这个古怪的名字的由来本身就充满着传奇色彩”变成功“张承裕这个古怪的名字……”,也勿晓得“张承裕”箇个名字怪拉啥地方。

5.0 别样

5.1 参考资料

白云深处人家《計算機漢字處理基本知識 漢字字體下載》

5.2 重要更新

  • 2010年1月21号,发布初版(吴语)。
  • 2010年2月16号,周海汉发布北译版
  • 2010年7月12号,增加0.1.1节表格、2.9节和码。

16 Responses to “Windows高头古僻汉字输入方法”

  1. ablo Says:

    您好!本人写了个《汉字大全》的字典,有人推荐您的网站。
    请问您是哪里人?不知用的何处方言?
    感觉您在汉字方面有很深积累,向您学习和请教。
    我想转载改编您的这篇文章为国文到我的blog中,是否有问题?
    我的网站是http://blog.csdn.net/ablo_zhou

  2. 好南儿 Says:

    用的是吴语,具体行文以上海话为主。
    别夸我,我装得深而已,其实浅得很。
    翻译注明原作者、给个链接就可以了。

  3. ablo Says:

    您过谦了。我花了一个晚上翻译您这篇文章,并转载到我的blog上。
    因为不懂吴语,可能有些地方不到位,请指正。谢谢!
    地址:
    http://blog.csdn.net/ablo_zhou/archive/2010/02/16/5309912.aspx

  4. 好南儿 Says:

    “图文并茂,是篇很好的文章。”过奖了,自己觉得还比较凌乱,改天我还得修修。
    周兄的译文除了二处不打紧的细节,基本无误。不过普通话读者或许会觉得江浙气息还是很重。;-)

  5. ablo Says:

    根据您的意思进行了修改。我基本遵从您文章原貌,只改了一些用语习惯和普通话费解的地方。江浙气息浓应该没有问题,作者就是江浙人嘛。
    您指出的地方正好是我猜不出意思的地方。谢谢!
    我也很赞成您保存地方文化的思想。虽然没有落实到用方言写作,不过方言里面所蕴含的文化背景,不是其他的语言所能尽表的。大一统并非好事,这意味着文化的湮灭。

  6. 好南儿 Says:

    很高兴认识周兄这样理解文化多样性意义的IT人士。

  7. 揭穿孙海峰真相 Says:

    我是《新概念五笔》作者,你被孙海峰忽悠了,怎么还充当枪手呢。一个抄袭剽窃他人劳动成果的海峰五笔,也值得你拿出来说事?!

    拜托,你也应该清醒一下了。也许你未必知道真相。

    海峰五笔2004年11月29日发布的7万字五笔输入法,所用EXTB近四万字的五笔编码根本就不是“大规模协作超大字符集五笔免费编码工程”智慧结晶,而是直接抄袭剽窃新概念五笔企业版而成。新概念五笔付出的编码劳动,孙海峰不仅把它抄袭剽窃下来,而且还公然以“编码工程智慧结晶”或者“研究成果”向他人授权使用。事情已过去多年,本不想旧事重提,但是新概念五笔不把事情真相公诸于众的话,还会有更多的人被孙海峰所忽悠。

    请自行对照,真相自明。

    第一组对照:
    2004年8月1日发布的新概念五笔超大字符集版本中的EXTB生僻字五笔编码错误与2004年11月29日发布的海峰五笔进行对照。新概念五笔数百编码错误公然出现在海峰五笔中,而且是该汉字的唯一编码。

    第二组对照:
    2004年11月28日发布的新概念五笔超大字符集7万字版本已是校对的版本,除了将前期旧版本EXTB部分所发现的编码错误进行修改以外,还针对某些字根和编码方法进行了调整。2004年11月29日发布的海峰五笔并没有将这个校对的码表抄袭下来,这是我唯一感到幸运的事情。不用着急,请下载最新的海峰五笔9.4版本,再次对照EXTB超大字符集部分的编码。令人愤怒的现象发生了:新概念五笔校对的编码,海峰五笔校对了;新概念五笔新增的字根,海峰五笔新增了;新概念五笔没有校对出的错误,海峰五笔仍然没有校对出。

  8. 好南儿 Says:

    在下眼拙,兄台与海峰的恩怨是非实难分辨。眼下能做的只有介绍海峰作品的同时保留兄台这条信息。
    另外附上二位在北中论坛的争辩,以供读者参考:
    http://www.pkucn.com/viewthread.php?tid=128443
    http://www.pkucn.com/viewthread.php?tid=128455
    http://www.pkucn.com/viewthread.php?tid=129371

  9. 揭穿孙海峰真相 Says:

    以下是孙海峰以新概念五笔有某些词为由向新概念五笔索要超大字符集码表的邮件。原件可以http://www.pkucn.com/viewthread.php?tid=128455 8楼附件下载。

    李顺兄:

    喜闻您推出了支持方正超大字符集的《新概念五笔》,你为千万五笔使用者做了一件大好事,衷心地表示祝贺和感谢!
    在下孙海峰,即《海峰五笔》的作者。严格来说也并不算是作者,只是一个词库的制作者而已,因为我对编程可以说是一窍不通。
    今天试用你的新概念五笔0801版,发现兄在此版本中包含了海峰五笔的词库,心中甚感欣慰。其实几年以来,我一直致力于收集语料修订一个标准通用的词库,供广大五笔爱好者下载使用。阶段成果便编译为微软标准内置码表,以《海峰五笔》的名称免费发布。

    今日来信是有一事相求。原委是这样的:近来与五笔爱好者论坛上的孤山野狐、dtwys等商讨,欲推出一个支持方正大字符集的码表式输入法。分为86和 98两种编码方式,完成后将以完全免费的形式发布。此即原来《山顶洞五笔》的后续版本,因dtwys兄身体欠佳而委托我负责此事。目前任务分派工作已在论坛上展开,但缺少权威的前人成果可以借鉴。于是我想到了你,如果兄有兴趣和时间,可否参与这一造福后世的工作?或者如果无暇顾及,可否提供您的词库码表让大家参考,此后也可以长期共建共用?

    当然如果涉及商业秘密而不方便的话,大家也不好强求,毕竟修订一个词库背后凝聚着大量的心血。但其实码表共享也是早晚的事,只是没有您的参与大家会多费些力气。兄何不顺成此美,在免费五笔软件的历史上也留下芳名。以要求上若有冒犯之处还望海涵,颂安盼复!

    海峰,2004-8-17

  10. 揭穿孙海峰真相 Says:

    新概念五笔的词库当时收词28万,早期版本收词更多,有约30万。曾经导入过《拼音佳佳词库》22万词,下载地址可到天空软件站搜索。经查证,《拼音佳佳词库》(拼音佳佳素材) 恰巧出现了孙海峰所说的专有词语。孙海峰大概忘了,他曾以这些词为由写邮件向新概念五笔索要超大字符集五笔码表。新概念五笔没理睬,没有回信,拒绝了这种无理要求。

    新概念五笔曾经要求孙海峰将此邮件公布出来,很可惜,孙海峰不敢提供。

    以上就是孙海峰以新概念五笔有某些词为由向新概念五笔索要超大字符集码表的邮件内容。

  11. ablo Says:

    好南儿兄:
    因csdn格式有问题,所以我做了独立域名。您的这篇大作最新普通话翻译版地址:
    http://abloz.com/2010/02/16/translation-windows-secluded-ancient-chinese-character-input-method.html
    谢谢!
    致礼!
    周海汉

  12. ablo Says:

    好南儿兄:我写的《汉字大全》2010年2月份就完成了,收录了全部74394个汉字。大多具有拼音,部分具有朝鲜谚文,朝鲜罗马字,日语音读,日语训读,或越南音标。
    部分支持五笔,仓颉,四角号码,郑码,偏旁,笔画数,笔顺查询。
    部分具有英语解释。但遗憾的是缺中文解释(没有相关的资料)
    后面一直没有更新。源码在http://code.google.com/p/hzdq. windows下有一个非最新代码的发布版本。

  13. 好南儿 Says:

    说来真是惭愧,兄台两处博客我都订阅了,可转眼一年过去,《汉字大全》我还没怎么试过……

  14. smg808 Says:

    年轻人在手机、电脑上输入文字飞快,让家里的长辈看得煞是羡慕。长辈们没学过拼音,而五笔那125个字根又让长辈们头晕,能不能用简单的办法让长辈学会文字输入?《汪翔中文字元数码》只用1-0十个数字就能输入中文,适应了不会拼音和五笔的中老年人、农民工兄弟们。

    现在的手机越来越高级,随着手机的普及和汉字输入的需要,26字母键、触摸屏、手写笔应运而生。但是,毕竟使用十个数字键的中低档手机占了大多数,这些手机如果能用汪码数字键输入汉字会给大家带来多大的方便!

    《中文字元数码》代码是:横1、竖2、撇3、点(捺)4、折5、特例(组合)6、交叉7、对合8、开口9、包围0 。单字组码举例:中02国0174人8民9515解3537放6317军9157(左右字左边傍取首码,右边取2、3、末;)词组组码举例:中国0201人民8895解放军3569(单字、词组取码1、2、3、末;最多四码)基本规律就这么多。

    作为一名志愿者,老菜注意到汪码真正对社会文明是很有益的,在中老年人和农民工群体中也有较大的需求,特别是能同时输入简繁体,适应海峡两岸同胞的交流。为此,支持79岁的汪翔老先生的汪码,做了一个汪码半小时学会的图文教程。最近,汪老先生请编程人员将汪码制作了《中文字元数码学习版》,供网友免费下载、使用。
    http://www.vdisk.cn/down/index/4607843A7500

  15. smg808 Says:

    汪翔中文字元数字码具体情况可参阅——
    http://bbs.thmz.com/read-htm-tid-1213105.html

  16. Zagfai Says:

    用粵語嘅兄台路過。

Leave a Reply


为了防止恶意的垃圾评论脚本,请输入以下图片里面的数学方程式的答案。
防垃圾评论问题