内容发布更新时间 : 2024/11/19 16:42:06星期一 下面是文章的全部内容请认真阅读。
This paper has outlined the architecture of a multilingual database of idioms. The database is set up to capture basic monolingual and crosslinguistic properties of idioms in a uniform fashion, via an English “interlingua” which is additionally linked to an implemented grammar of English.
Our primary short-term objective is to populate the database with as many languages as possible and proceed with a crosslinguistic study of idioms. We also hope to expand the scope of the annotation process to analyze the syntactic correspondences between idioms in different languages.
43
中文译文
习惯用语的多语种数据库
摘要
该文章提出了一种能构建习惯用语的多语种数据库的方法。根据这种方法,要创造一个数据库和一种编码,就可以用不同的语言来存储大量的数据。这种思路给语言学、计算机语言学和心理语言学的使用提供了一个重要的信息:我们可以考虑根据不同的现象使用不同的语言。这为我们提供了一个基础,以便我们更好的理解语言是习惯用法的规律。 1.介绍
这项工作能够创造一个习惯用语的多语种数据库。习惯用语通常被定义为这样的一组词,如果每个词的意思已经被单独定义,那么它们一起使用的时候会有不同的意思。 (Collins, 2000).比如他们包括泄密、死和幕后操纵,在我们日常语言中,他们用来表达我们思想及观点时,是不能被压缩成单一的单词的。即使有些习惯用法是固定的,并且没有内部的改变, 譬如特别, 也可以成为有不同程度内部变化的习惯用法。 并且其机率是变化的。例如, 习惯用语泄密允许内部更改、通过、论证等等。
正如我们所知, 习惯用语是多词表达中非常另类的一种,范围从(不完全-)固定用法(比如死) 该用法只允许语言学上的改变, 到更灵活的那些(比如泄密) 可能会经受不同类型的语法 改变和修正(Nunberg 等,1994) 。此外,从最近的用法来看, 这些习惯用语的语法改变的类型是极其变化莫测的(Riehemann, 2001) 。虽然这些工作集中在对英语习惯用语的讨论,但同样的现象也出现在其它语言的习惯用语中。
这种改变是对成熟的(计算)语言处理的一种挑战(Sag,等2002)。在语言学中, 例如,他们经常作为支持或反对语法理论物产的证据(即语法理论必须包括变形操作吗? 摘自Nunberg 等(1994)) 。在计算机语言学方面, 例如,为了应用机器翻译, 对于这些能够处理自然语言,并且避免在目标语言中产生不通顺或者荒谬句子的系统来说, 适当的理解和处理习惯用语是很有必要的。有这样一种情况,两个习惯用语在不同的语言中可能会有同样的意思(比如英语中的硬币在葡萄牙语中就翻译为 o outro lado da moeda, 并且是名词词组习惯用语)但是这些习惯用语的改变确切的说有多少呢?在一个给定的语言中固定的习惯用法所占的比例是多少呢?其他语言中这种比例是多少呢?
以进入一个多语种数据库的案例,来分析我们通常的习惯用语,对他们来说
44
其本质是什么、如何正确处理习惯用语的语言交叉。这里我们提议一种编码。它支持从几种语言处搜集习惯用语,并描绘出它们相同的部分。 2.成语交叉语言
习惯用语通常是指一种随着时间的推移而变得固定或过时的暗喻。然而在一些情况下这些暗喻是很明显的,甚至外国人也可以理解。 (比如一石二鸟比喻在同一时间完成两件事情), 在其它情况,有些暗喻是很隐晦的, 如果听众没有理解这种习惯用语,它可能导致误解(比如kick the bucket as die即死和死) 。
一些隐喻可能会出现在交叉语言的习惯用语中。例如, 某个习惯用语既可以在英语中也可以在葡萄牙语中被找到,它表示完整的词汇、语法和语义,in the red在葡萄牙语中为no vermelho,葡萄牙语中no是“in + the”的缩写,vermelho则是red的意思。并且这两个习惯用语都是前置短语并有着同样的意思。然而在交叉语言的习惯用语中我们还是发现了大量的改变,这些习惯用语没有直接的描述,可以区别一种或多种情形,且/或允许不同形态的更改/变异。例如, 有些习惯用语是语法相同,而语义不同。一个例子就是in the black和它在葡萄牙语中的相似词no azul (in the blue), 两个都是前置短语的习惯用语,唯一的区别就是颜色的选择(蓝色代替黑色)。或者bring the curtain down on和它的相似词botar um ponto final em (put the final dot in),都是口头造句。也有一些习惯用语的语义相同,但语法明显不同。例如, in a corner和 encurralado (意思为 cornered)。 语义相同但是词性明显不同。在英语中是前置短语而在葡萄牙语中则是形容词。最后,有些习惯用语在其它语言中有很多的同义词,而有的则一个都没有。这些信息是非常重要的(参见Tanaka 和Baldwin (2003)关于机器翻译任务中出现的英语和日语复合名词的讨论) 。
设计一个在不同语言中可以用共同格式将不同改变来编码的数据库是个挑战,我们打算做一个这样的数据库,它可以最大程度的存储习惯用语以及它在其它语言中的相似词。 3.一种可能的构建
一个典型的过程开始于这名用户输入一些验证信息, 指明他/她的本国语言,然后选择源语言来转化成目标语言(默认为用户的本国语言) 。所有从源语言处获得的习惯用语到用户时都是可用的,用户可以浏览它们,并且输入在目标语言中同义的习惯用语。对于每条习惯用语, 用户都可以获得它的字义以及举例(都为英语) 。然后这名用户将被询问并要求其提供关于它的语法变化的信息(比如“该习惯用语是局部的?”,“它允许内部修改?”,等),和关于它映射到源语言(如果存在)。依照第二部分的讨论,对于一个特殊的词组,在它的现实的同义习惯用语中也许会有巨大的变异。为了获取这样的变异, 我们采取了以下过程:
45
1.如果目标语言的习惯用语的词性、语法和语义与源语言中的习惯用语是对等的话(比如in the red 和 no vermelho),这名用户被询问提供word-to-word 映射这条成语;
2.另外如果它们的语法和语义相同, 但是词性不同 (比如in the black和noazul), 这名用户被询问在对应单词和不同词性中选择映射,翻译到源语言;
3.另外如果它们只有语义相同, 这名用户将被询问输入这条习惯用语和它的翻译的各个词源语言。
对于每一种情况, 这个词在这条习惯用语中的位置同样需要记录下来, 用于统计单词位置的改变。例如,英语中的new blood, 这里形容词在名词的前面, 它在葡萄牙语中的同义词为sangue novo (blood new),这里形容词在名词的后面。如果有更多的同义词存在, 那么同样的方法应用于每一个同义词。在那以后,如果没有同义词, 则显示下条成语,用户通过相同的方法继续。 4.测试数据
为了测试这个设计, 这个数据库当前包含 100 条从Collins Cobuild习惯用语字典中抽取的高使用率的英语习惯用语样本(Villavicencio 和Copestake, 2002) 。他们被当作起始点( 源语言种子)来收集翻译其在其它语言中的同义词。最初,在英语和其它语言之间的映射被测试过, 但是目标是扩展这个数据库,使它支持任意两个语言的习惯用语之间的映射。该数据库既可以本地访问也可以通过网络访问,以便不同地方的用户浏览数据库,并获得有关他们本国语言的习惯用语的信息。 5.Web界面
第一步在注释过程中将规定目标语言, 然后从原始注释中随意选择英语习惯用语的序号。当前, 语言选择在任何情况下是基于串和不规格化的, 这是为了避免限制那些少数人使用的语言的范围。这个接口另外有一个基于cookie的工具来识别用语数据维护用途的注释,也可以连接多进程注释。
46
图1:提供一个翻译和基础的特性
图2:单词队列(1)
选择好语言后, 注释者按顺序完成这100条英语习惯用语中的每一条,补充目标语言中的同义词。对于每一个目标语言的习惯用语,都要求注释者给出关于它的内在改变的判断,以及词性的评估以及对等于源语言习惯用语的语法。在图 1中, 我们提供一个no azul 翻译in the black的注释界面。
其次这个接口给注释者一个队列窗口来指出两个习惯用语的相对词性。在目标语言习惯用语的词性与源语言习惯用语一致的情况下,它由匹配于每一个目标语言所对应的源语言所组成,并且这个接口简单地提供注释者一个源语言单词的列表,来完成队列。( 参见图2 new blood 和sangue novo的事例); 在提交队列时,系统检查该队列是最大的——也就是所有对立语言中一个或多个词的映射——发出一个警告,非连接词被找到。 如果习惯用语的词性不一样,另一方面,将提供用语在目标语言中的非连接词的翻译注释的额外专栏 (参见图3 in the black 和 no azul的事例) 。需要注意,可能会有部分的词性相对应(参见no 和 in the), 并且因此, 我们为词性对等的习惯用语提供了单词队列。如果没有遇到这些情况,我们将发出一个警告。目前, 我们不尝试对语法不对等的习惯用语做更一步的分类, 也不对语法对等的习惯用语的结构类型进行分类。
在注释完每个习惯用语对以后, 系统将给注释者一个对源语言习惯用语进行翻译的额外增加的选项, 或选择进行对下条习惯用语。此外, 注释者可以对没有目标语言对等词的源语言进行标注(参见图1) 。
47