A-A+

简化字在计算机时代的尴尬

2009年03月02日技术文章暂无评论阅读 1 次

简化字在计算机时代的尴尬

繁體字我則堅決依照臺灣的標準。
用“麼”不用“麽”
用“勻”不用“匀”
用“丟”不用“丢”
用“說”不用“説”
用“裡”不用“裏”
用“憑”不用“凴”
用“為”不用“爲”
用“概”不用“槪”
用“強”不用“强”

前面的繁體都是臺灣經過整理以後，後面就作爲異體了~~除了細明體和標楷體和個別字體，後面的字一般都打不出來~~
GB18030裡面很多字就是中港臺日韓混亂的，“說”本來是傳統的寫法，簡化后出了個“说”，“说”的繁體自然就是“説”，然後傳統的“說”又被吸收到18030裡面去了~~

这里，首先列出九十六个汉字（简体）：

　　厂摆板表别卜才冲种丑出当淀
　　冬斗恶发范丰复干谷刮合后胡
　　划回汇伙获几家姜借尽卷克困
　　适累里历帘了霉蒙弥面蔑万辟
　　朴仆千签纤秋曲舍沈胜松苏台
　　坛团系咸向吁须旋么叶佣游于
　　余郁御愿云芸脏折征症只致制
　　钟朱术筑准

　　然后，请让我平静地告诉大家：正是这九十六个简化字，会将我们的汉字引入困境。

　　简体字（简化字）作为十几亿中国人的“官方语言”，在过去近五十年间，逐渐为社会公众所广泛承认、接受与普遍使用。这个当初由中华人民共和国文化部、教育部及中国文字改革委员会联合颁布实施的《汉字简化方案》，无疑是非常成功的，简化字笔划简单、书写方便，给人们的工作、学习、生活带来了方便。

　　随着现代科技不断发展，人们的生活已与计算机密不可分。在古文典籍的电子化过程中，上述九十六个简体字所引发出来的混乱，却近乎是一种灾难。

　　因汉语言文学研究上的需要，古文典籍我们应当以繁体原文形式进行保存，一篇经一校、二校、三校，准确无误的简体字文章，一经电脑程序转换为繁体字，立刻涌现出大量“错别字”：「陸游」成了「陸遊」，「胡適」成了「胡适」，「錢鍾書」成了「錢鐘書」，「怒髮衝冠」成了「怒發衝冠」，「這裡那裡」成了「這里那里」，「為甚麼」成了「為什么」，「九萬里」成了「九万裡」……但愿百年之后，你我归了黄土，不会被发明汉字的祖师爷倉頡先生，指着鼻梁子臭骂，但愿从此你我的脸皮子能磨练得厚一些，再厚一些，丝毫不再觉得愧对华夏祖先。

　　其实，话也不必说得那么远。明天请您用电脑输入一篇繁体字的学术文章，发往台湾的学术研究机构；在台湾方面，只要将文章转给任何一名稍有点水平的高中生，他就能一一为您指出：在您的文章当中，可能有多少多少个错别字。……

　　这一切，我们并不能责怪程序员或计算机，二者均已尽了力；程序的编制完全忠实于固定算法，电脑运作也完全忠实于程序；若一定要责怪的话，只能怪“天”！只能怪简化汉字改革的推行早了四、五十年。只能怪“我们在一个错误的时机，发动了一场错误的战争”（引用美国官方话语）。

　　若计算机的普及早那么四、五十年，若制定《汉字简化方案》的专家学者们用过计算机，反复地论证过“在计算机上处理汉字的问题”，这九十六个简化字所引发的灾难，恐怕就绝不会发生了。

　　单纯从技术的角度，我可以明确地这样告诉大家：若维持上述“九十六个简化字”的现状不作任何改变，那么试图通过程序方式自动将简体字准确无误地转换成繁体字，几乎是不可能的！因为简繁体汉字之间快速准确的转换，基于这样一个必要条件：简体字与繁体字应当是一一对应的；就象“汉”对应于“漢”、“华”对应于“華”、“实”对应于“實”这样直截了当；若简体的“系”字，可对应“系係繫”、“于”可对应“于於”……且这种“一对多”的关系是近乎随意的，那么便没有任何电脑程序能够准确地处理了（事实上，人脑进行这种辨别也相当困难——请您试试分辨以下繁体字（一组词里头，只有其中一个是正确的）：“陸游”与“陸遊”、“天台山”与“天臺山”、“五台山”与“五臺山”！）。

　　若从经济的角度，即便最终能完美地实现了这样的程序，也将会是一件“劳民伤财”、得不偿失的事情——计算机要经过极其复杂（运行次数近乎天文数字）的运算，才能准确转换一篇几百字的文章。

　　古人云：亡羊而补牢，未为迟也。我觉得，要从根本上解决这个问题，其实并不难。只要文化部、教育部等“官方机构”对简化字作一次“有时代特色”的小小的修订（计算机领域的专业术语叫做“补丁（Service Pack）”），将可能引致繁简转换混乱的所有简化字（上述“九十六个简化字”的统计数字，估计仍会有个别遗漏，请以官方统计数据为准），逐一细拆，逐一重新制定相对应的简化字（例如，为“于”与“於”分别制定两个不同的简体字，为“系”“係”“繫”分别制定三个不同的简体字……），并强制全社会推行。

　　最后要说一句：这不仅仅是典籍电子化的需要，这也是中华民族子孙万代的需要；我们没有任何理由、任何藉口，让优美的汉语言文字自我们这一代人起断子绝孙！我们没有任何理由、任何藉口，让我们的后人从此再也写不出一篇措辞优雅且没有任何一个错别字的繁体字文章！

　　……五千多年来的华夏祖先们，正默默地躺在黄土之下，默默地注视着我们。

举个小小例子：现在用电脑转换五百字的简体文章为繁体，用时无需0.1秒，而转换之后，校对这五百字繁体文章，则需要近半个小时！若需转换的文章有成千上万甚至上亿字，呜呼，我又要高呼“以有涯随无涯”……之类怪话啦。

简体繁体，都是汉字——为什么要存在这种混乱情形呢？一篇简体字的文章，0.1秒之内，让用繁体字的台湾、香港人也能看得懂，这难道不是一件大好事情么？即便从“一国两制”、“一国两字”的角度看，也是一件功德无量、利国利民的好事情！为什么我们要白白地付出那么多无谓的校对的时间与精力呢？

前面说过，因汉语言文学在学习、研究上的需要，古文典籍应当是以繁体原文的形式保存的。大学念过古典文学、古代汉语的朋友，相信会明白这一点。在古文、古汉语领域，甚至可以这样说：繁体字才是中文系的“官方语言”。

由于存在上述简、繁体字之间转换的混乱，《中华诗词》软件以简体字收录古诗词、文言文，其实是很不“保险”的。即便我们校对得再仔细，有一点是确定的：

我们收录的这些诗词、文章，根本无法准确地转换成繁体，无法忠实地展现其历史原貌。

我个人觉得这是一件令人十分悲哀的事情。这近乎是一种“徒劳”。我自以为在学习祖宗的文学精粹，孰料我所做的这一切，我所学习的这一切，在祖宗的眼中，只不过是一堆数也数不清的错误。

在目前的繁体输入法当中，我们的解决方法也是“以词定字”。当输入者打“这里”时，我们输出“這裡”；打“关于”时，我们输出“關於”……这样可以避开大部分常見的繁简字错误。然而这也仅是“治标”而已，因为输入法的词汇是无法无限制扩充的，即便可以扩充到十万词组，重码也会随之大量增加，多得让人无法接受。

此外还有一个困难。输入法输入繁体字与电脑自动转换繁体字之间，还存在着某种微妙差异。直接输入汉字时，输入者的主动分词与调整，也可起到减少错误的作用。

考虑这一句话：

我在三元里面馆吃面前忘了下醋。

这句子有些古怪，只作为一个特例。输入者能够快速准确地分词（将一个句子，拆分成一个个词组）：

我－在－三元里－面馆－吃面－前－忘了－下醋。

而电脑自动分词的结果则可能是这样的：

我－在－三元－里面－馆－吃－面前－忘了－下醋。

“以词定字”自动转换成繁体就会变成这个样子：

我在三元裡面館吃面前忘了下醋。

而正确的繁体字应该是这样的：

我在三元里麵館吃麵前忘了下醋。

——相信电脑，依赖电脑，无疑会是一件危险事情。

有没有想过，现在我们所有中国人都在说白话文，为什么每一所中小学的语文课都在教文言文？现在我们大多数人住的房子有防盗门、防盗网，为什么不给所有古建筑也上一个防盗门、加一道防盗网，多结实多安全啊！现在我们穿的都是衬衫、西裤，为什么拍电视时演员们要穿古装那么别扭（做一套古装，比起做一套时装，不知要贵多少钱！太不值啦！），让演李白、杜甫那几位一律改穿西服、打领带得啦，让杨贵妃穿超短裙，让西施染棕发、穿牛仔裤，让王昭君出嫁时，穿一袭黑色晚礼服……那多帅、多酷啊！

开个玩笑而已。的确历史是严肃的，文字也是严肃的。正因其严肃，我们才需要在某些情形下，忠实地记录、忠实地还原其原始面貌。

本贴强调繁体字并不是要宣扬复古，而是出于研究、整理上的实际需要。笔者试图提出一个最简单的解决方法而已。

有一则笑话是这样的：

前苏联宇航员发现，在太空失重状态下，圆珠笔无法在纸上正常写字，无法及时记录太空实验的结果。于是地面的苏联科学家想尽千方百计，试图解决这个难题。他们耗费了三年时间，斥资几十亿卢布，结果仍然以失败告终。垂头丧气的苏联专家只好偷偷向美帝国主义的科学家们学习：究竟美国人是如何解决这个世纪难题的——结果，他们惊讶地发现，美国宇航员用铅笔！

我觉得，与其想尽千方百计，试图编制最复杂的计算机程序来解决这个“超级难题”，莫如修正96个“问题汉字”，那是最简单，而且一劳永逸的解决方法。

（其实这笑话所指并非“技术”，而是当技术、资金投入已近极限，且技术被证明无法解决问题的时候，可能换一个角度、换一种方法，却能轻而易举解决难题。铅笔与圆珠笔，基本上没有什么“技术” 上的可比性；再者，生产铅笔所需要的“技术”，相信也要比圆珠笔要低得多（这从两样商品的价格可大致看得出来）。）

我们不妨对照一下英文ASCII码的排列方式。英文有大写、小写之分，与我们的简体、繁体字有一点点类似。我们在google等搜索引擎中输入大写字母，搜索引擎能自动将这些输入转换成小写（这相当于我们输入简体字、程序能“零时间”地自动转换成繁体字），这归功于英文字母内码的排列方式。虽然我们每个人所用的英文键盘排列方式似乎是无序的，但储存在电脑中的字母，则严格按照字母表顺序，且大、小写字母之间一一对应，总是相隔32位。将一个大写字母的内码值加上32，即可转换成一个小写字母，反之亦然。

虽然英文字母只有26个，而汉字有成千上万，但在处理方法上，我觉得汉字内码的设计，原本也可以参考英文的作法——

以国家规定的《简化汉字方案》为标准，将所有汉字划分为两大类：①简繁异体（同时拥有简体写法与繁体写法的汉字，如“汉”对应“漢”、“华”对应“華”等等），②简繁同体（只有一种写法的汉字，如“定”、“列”、“格”等等）。相应地，在电脑处理时，可以将汉字内码划分为三大区域：

[1]简体字区域（这个区域对应于前面分类①中的简体部分）；
[2]繁体字区域（这个区域对应于前面分类①中的繁体部分）；
[3]简繁同体汉字区域（这个区域对应于前面分类②中的汉字部分）。

当然，这种处理方法基于如下假设：简/繁体字是一一对应的。

这样一来会有什么好处呢？假设区[1]有4200个简体字，区[2]对应有4200个繁体字，区[3]包括剩余的数万汉字。

当我们输入某个汉字时，若其内码属于区[1]，意味着它是一个简体字，想将它转成繁体字，只需将其内码加上4200，即可得到对应的繁体字。

若某个汉字内码>4200，且<8400，那意味着它是一个繁体字，且拥有对应的简体字，想转简体，只需将其内码减去4200，即可得到对应的简体字。

若某个汉字内码>8400，那意味着它是一个区[3]的汉字，无所谓繁简体转换，因为在任何时候都只有一种写法，在繁/简体转换时，电脑只需直接返回该字即可。

那么这种方式的汉字内码是最好处理的。繁体/简体字之间的转换，几乎可以做得跟英文大、小写转换一样漂亮，快速而完美！

问题是，现在的汉字内码的编码方式，居然是以字频+拼音+笔划的方式编排的，丝毫不顾及计算机处理汉字的方式。这套全国通用的计算机内码方案的设计者，估计是一些语言文字方面的专家，然而很遗憾，他们自己可能并不用电脑，更不会用电脑进行程序设计！
本文原发表于中华诗词论坛( http://search.zhsc.org/bbs/ )

浩然东方

浩然东方关注微信、android、IOs、app 致力于服务端数据优化、分析、智能

简化字在计算机时代的尴尬

给我留言取消回复