Unicode标准下古籍数字化的异体字处理 下载本文

内容发布更新时间 : 2024/6/26 17:14:51星期一 下面是文章的全部内容请认真阅读。

龙源期刊网 http://www.qikan.com.cn

Unicode标准下古籍数字化的异体字处理

作者:高天俊

来源:《现代语文(语言研究)》2011年第09期

摘 要:古籍数字化需要遵循世界通用的Unicode标准,Unicode标准在设计时并未考虑到异体字的特点,因此不能很好地解决古籍中的异体字问题。在Unicode标准下,通过建立异体字数据库、使用XML标记等方法能够较好地解决异体字问题。 关键词:Unicode 古籍数字化 异体字

Unicode字符集的全称为“通用多八位编码字符集”(Universal Multiple-Octet Coded Character Set),它支持现今世界各种不同语言的书面文本的交换、处理及显示。自Unicode标准产生后,它已经成为全世界通用软件以及互联网信息传输的基础字符集。由于具有良好的国际通用性和跨平台兼容性,为方便国际交流和知识的传承,Unicode也成为学术界所遵循的基本字符标准。

一、Unicode设计原则与异体字

为保证其良好的通用性、可继承性及高效性,Unicode在制定之初就规定了若干设计原则。其中和异体字关系较大的是“字符、非字形”原则。Unicode标准对字符和字形加以区别。字符是具有语义值的用以书写语言的最小组成要素的抽象表示。字形反映的是字符呈现的形状。与字符相比,字形是作为一个或多个字符的特殊表现形式出现在屏幕上的[1](P15),这一原则在计算机上表现为同一字符在不同字体下显示风格的区别,此即所谓的“数码异体”[2]。同一组数码异体字的内码完全一样,只是由于其所链接的字体文件不同,所以才导致其显示的差异。

纸本古籍中所存在的严格意义上的异体字,即“音义完全相同仅字形不同”的异体字,和“数码异体”的本质是一样的,各异体字形只是在刻写过程中和外形结构上有所区别。由此,在古籍数字化的过程中,根据Unicode的“字符、非字形”原则,刻写异体字应该也具有相同的代码点,其外形的差别可以通过制作不同的字体,根据需要调用所需字体来实现。

实际上,Unicode标准中已经收录了相当数量的刻写异体字。《汉语大字典》后附的“异体字表”中所列的11900组异体字中,绝大部分已被Unicode标准收录。并且在Unicode的最新版本中,还在不断地增加新的异体字。比如最新的Unicode6.0版本中新增的两个汉字编码区CJK

龙源期刊网 http://www.qikan.com.cn

Unified Ideographs Extension C(中日韩统一表意文字扩充C)和CJK Unified Ideographs Extension D(中日韩统一表意文子扩充D),仍然收录了相当数量的异体字、俗字甚至讹字。

二、Unicode标准下的异体字问题

Unicode标准中收录了各种异体字,在一定程度上解决了古籍数字化过程中异体字显示的问题。但从另一方面看,它又使异体字的输入、检索等变得更加困难。

由于Unicode标准为其所收录的所有字符分配独立的码点,这使得同一组异体字的每个异体具有不同的码点,也就是说Unicode标准将它们看作不同的字符,忽略了异体字之间的关系。这在异体字的显示方面并没有问题,但在异体字的检索与处理方面,该方案的缺点却显而易见。第一,在异体字的输入上,包含异体字的字符集会异常庞大,输入法编码中的重码数量显著增多,导致输入困难。第二,在包含异体字文本的检索上其缺点更加明显。可以设想,如果某古籍电子文本遵循保持纸本原貌的原则,使用独立Unicode码的异体字符,从计算机处理方式来看,这些异体字和它们的正体字之间将毫无关系。在用户只知道语义或语音的情况下,一般只会通过正体字查询,而正体字和异体字内码不同,很显然这样是检索不到任何内容的。 对于古籍数字化中的异体字问题,有学者提出“对汉字进行完全独立的解码”,即“为已经整理好的古汉字异体字申请代码区”[3]。这种处理方案只为各组异体字的代表字(正体字)分配码点,其它异体字形采用二级编码和代表字链接。在输入、检索代表字时,可以通过字符链接找到其它异体字形,同样,也可以找到正体字。但目前几乎所有的字符编码系统都采用的是一级编码制,二级编码在技术上如何实现、如何处理和现有系统平台以及网络信息传输的兼容性问题,目前并没有很好的解决方案。前面已经提到过,目前Unicode标准中已经收录了大量的异体字,为各种异体形式分配了码点。由于Unicode具有另外一个重要的设计原则即稳定性原则,一旦字符确定,其代码点即不可改变,Unicode也不可删除它。因此,在目前Unicode标准下,已经无法仅为代表字编码了。

三、Unicode平台下异体字问题解决思路

到目前为止,学术界已经整理出一些古籍数字化过程中的异体字处理原则。

在数字化时,异体字字形选用及异体字检索的问题上,迪志文化出版有限公司和书同文计算机技术开发有限公司整理开发的《文渊阁四库全书电子版》,遵循“在现有CJK+字符集的基

龙源期刊网 http://www.qikan.com.cn

础上尽量保真,不做以简代繁,只做有控制的异体代换”。异体代换宽严原则为:“字书从严,其它从宽;字头从严,释义从宽;表形时从严,表义时从宽”。该原则在CJK+(Unicode子标准)基础上,尽量采用Unicode已分配码点的字形,尽量保持古籍原貌。这种做法会带来上文所述的异体字检索问题,《文渊阁四库全书电子版》的解决办法是:“将输入的字符串据简繁、正异、古今、通假、新旧字形等关系衍生成一系列字符串,经全部选择或局部选择之后进行检索”。实际上,该办法是为简繁字、异体字、古今字等建立一系列词典,在检索过程中,将关键词字符串和该词典进行匹配查询,生成一系列与原关键词对应的检索字符串,并将其和原关键词一起作为检索条件进行检索。这种处理方法能够比较有效地解决异体字正体、异体之间交互检索的问题,为我们整理古籍提供了一个很好的借鉴。

在现有原则的基础上,我们提出一套在古籍整理中处理异体字时可能的处理方案。由于Unicode标准已经忽略了异体字形之间的关联,首先需要重建它们之间的关系。即根据已整理的异体字表建立一个动态的异体字数据库,比如目前可以以《汉语大字典》中整理的异体字表为依据,以其中正体字为主键字段,其它异体字形分别作为其它字段,由此建立异体字与正体字(代表字)之间的关系。但是由于异体字整理工作繁难复杂,现有异体字表中也有许多问题,因此此异体字数据库应该设计为一个开放的系统,能够不断地增加新的异体字组或者异体字形。同时,该系统还需要具有一定程度的稳定性,以保证在不同时期利用该系统所制作的古籍的正确性和通用性。因此,异体字数据库应该和Unicode一样,异体字一旦进入数据库就不能随意删除和修改。

在异体字数据库建立之后,就可以建立专用的异体字输入法了。异体字输入法可采用二级编码方案。如采用音码,可首先为一组异体字的正体编一级音码,各异体字形在音码后加间隔码(比如目前流行输入法中常使用的隔音符号编码“‘”),间隔码后再为各异体字形赋二级编码。这样,输入正体字时采用普通音码即可,而如要输入该正体字,只需输入正体字音码加上间隔符号就可出现异体字形列表,此时选择所需字形即可。

包含异体字形的古籍数字文本中,另外一个需要解决的重要问题,就是异体字形的检索问题了。《文渊阁四库全书电子版》在异体字的检索上为我们提供了一个很好的思路,但是它所建立的异体字库只能在其本身的封闭环境内使用,无法推广至通用系统平台。在我们的方案中,建立了一个通用的异体字数据库之后,任何遵循Unicode标准的古籍数字化文本都可以通过链接该数据库进而检索到异体字形相应的正体字、异体字,或者通过输入正体字形,查找该正体字相应的异体字形,生成可能的异体字形关键词列表,将它们一次作为关键词进行检索,这样就能保证完整无遗漏地获得需要的结果。

最后,在古籍数字化过程中,还可以采用相应的计算机技术,配合异体字数据库、异体字输入法等制作适合古籍特点的文本。比如,可以采用xml技术来标记古籍中的异体字:我们可以遵循尽量保持古籍原貌的原则,在xml文本正文中采用和纸本相同的异体字形,同时在异体字形后使用xml标记指示其相应的正体字。这样,在检索时无论关键词是正体字形还是异体字形,都可以得到正确的结果,并且这种文本的异体字检索并不需要依赖异体字数据库,具有更好的独立性。