定义1:令s为一个语言单位,s的表层语义定义为函数值P(s)。
定义2:令s∈W*为一个语言单位,s的深层语义为复合函数值U(P(s),K)),其中K是背景知识的集合。理解函数U可以展开表示如下:
∏ ii == 1nfi (ki)·· P (s) = f1 (k1, f2 (k2, (...fn (kn, (NET (s)))...)),
其中,ki,fi∈K,ki是背景知识集合中的知识,fi是对语义网络的操作。
鉴于本文的需要,我们在此只给出语言单位的指称语义的定义。对于包括各种操作在内的深层语义的其它进一步定义,我们不在此赘述。
定义3:令s∈W*为一个语言单位,定义s的指称语义为
Denotation(s) = {t |t是背景知识K中实体且属于s所标记的概念类的集合}
实际上一个语言单位s是概念的标记。在一个具体的知识背景中,概念的外延是由一些实体组成的集合。s的指称语义就是他所标记的概念的外延的集合。
根据这个自然语言的计算模型和以上的几个定义,我们形式地定义自然语言的歧义现象中的几个性质如下,并分别称它们为歧义性、多义性和模糊性。
定义4:如果一个语言单位s的表层语义不是唯一的,即其函数值P(s)多于一个,则称语言单位s具有歧义性。
定义5:如果一个语言单位s的深层语义不是唯一的,即其函数值U(P(s), K))多于一个,则称语言单位s具有多义性。
定义6:如果一个语言单位s的指称语义是一个模糊子集,即其函数值Denotation(s)是一个模糊子集,则称语言单位s具有模糊性。
在自然语言的计算模型上,我们给出了歧义现象的形式化的定义。其中歧义性是基于表层语义上的,而多义性、模糊性都是基于深层语义上的。对于这几种性质我们的处理策略也不一样。
4.对歧义现象的不同处理策略。
(1) 对于自然语言的歧义性,我们的处理策略是消除歧义。
歧义性的产生是人们在运用语言的过程中自觉或不自觉地涉及到了语言中某些容易导致歧义的因素。例如,语言单位中的各成分之间存在着具有可塑性的语义组合关系,含有可接受的多种逻辑关系,存在角色不明确的省略成分,等等。这种歧义的产生是在语言的使用中不应该发生的,因此应该予以消除。
在自然语言中,很多的歧义性是可以在表层语义分析中运用表层语义的规则式消除的。比如“修理工人的宿舍”这个歧义结构,在 “修理工人的宿舍在教室的后面”和“修理工人的宿舍安排在明天”这两句话中,这个歧义结构就会在后续的分析中,即在更大的上下文中,各自产生其所对应的语义结构,从而消除了歧义性,也就不会造成理解的障碍。因此这种歧义性是在更大的上下文的表层语义分析中予以消除的。对于如何在表层语义的分析中消除这种歧义性,我们将另外撰写论文,在此不再赘述。
值得指出的是,有些歧义性是无法用表层语义的规则来消除的,它们的消除通常要借助深层语义,即要放在一个更大的语言环境中或者依靠应用背景知识的推理才能消除。这样的歧义性,我们叫做先天歧义性。例3就是先天歧义的,因为不依靠上下文语境所给出的深层语义或者应用听话者的背景知识的推理就无法消除它的歧义性。对于先天歧义,它的存在会给言语交际的理解带来很大的不确定和干扰。因此,从说话者来说,应该尽量避免使用一些能够造成先天歧义的句子。一个歧义结构所表达的多种意义总是离散的、独立的,因而能够分化出不同的确定意义。如果换个说法,使语句中不含有那些容易产生歧义的句法与逻辑语义关系,就可以避免歧义的产生。比如,在“他反对的是少数人”和“反对他的是少数人”中,歧义性就消除了。
(2) 对于自然语言的多义性,我们不可能也不应该去消除它。
首先,多义性是自然语言的本质特性之一。符号所表达的客体究竟是什么取决于人们的背景知识。人们的背景知识不可能完全一样,因而对于同一句话的理解就有可能不同。从自然语言的计算模型上来看,m和m’是不可能完全重合的。另外,即便是同一个人,在不同时期,背景知识不一样了,对同样一句话的理解也有可能不一样,这就是孔子的“温故而知新”的原因。因此对于自然语言的多义性,我们不可能去消除它。同样的对于计算机而言,如果两台计算机具有不同的背景知识,那么它们对于同样一句话的理解也会不一样。这完全是正常的,对此我们要容忍。
另一方面,正是由于多义性,自然语言才呈现出它独有的魅力。有的时候人们会为了表达上的需要而故意使用一些意义模棱两可的句子让听话者去理解,巧妙地去运用它,以此增强语言的丰富性。如新闻的标题:孙雯立“头”功。“头”在这个标题中既表达人的头,又表达第一。这样的标题既形式简练,又内容丰富,还很有情趣。很多文学作品,如诗歌、散文、戏曲、小说、等等,之所以让人感到美不胜收,也是由于语言的多义性产生了美的效果。由此可见,多义性正是自然语言远远超越各种人工语言的优越之处。因此,多义性是不应该被消除。我们应该做的是研究如何来模拟人脑对自然语言多义性的处理。
虽然多义词的意义较多,但在使用过程中,由于其使用语境或结合上下文,一般不会造成意义上的混淆。多义词只有在“附加信息量不足”时才有可能造成理解上的困难。但一般而言,某个多义词在某一个句子中所表示的那个特定义项,可以根据语境的制约将其选择出来。人们在交际时可以结合说话者或听话者的知识背景来选择正确的那个意义。
从计算的角度来看,自然语言的多义性所涉及到的是深层语义计算中的参数K,即背景知识。只要我们认为背景知识K的选取是正确的,我们就应该接受其所计算出来的深层语义是正确的。
(3) 对自然语言的模糊性,我们采用模糊数学的方法来处理。
既然我们用模糊数学中的“模糊”定义了自然语言的模糊性,这就为我们运用模糊数学的方法处理之打下了基础。
在模糊数学中,是运用隶属度的方法来定义模糊子集。所谓隶属度就是用一个从论域U到[0,1]区间的映射来描述U中每个元素属于这个模糊子集的程度。例如,令U为数字1到10, 模糊子集“大”和“小”可用分别用以下两个隶属度表达式来描述:
“大”= 1/10 + 0.8/9 + 0.6/8 + 0.4/7 + 0.2/6 + 0.1/5;
“小”= 1/1 + 0.8/2 + 0.6/3 + 0.4/4 + 0.2/5 + 0.1/6;
其中“=”表示“定义为”;分母表示某个元素;分子表示这个元素对“大”或“小”的隶属度;“+”表示并列关系,而不是分式求和。上式说明这些数字在某种程度上属于“大”或“小”。其中,隶属度为1的完全属于“大”或“小”;隶属度越接近1,属于程度就越高;隶属度小一些,属于程度也就低一些;隶属度为零的则省略了。隶属度函数将模糊子集表示为精确的数学描述,因此,模糊概念用隶属度函数定义后,就可以计算了。