由此可见这种歧义现象与前一种是完全不同的。我们将引起自然语言中产生这种歧义现象的性质归纳为多义性。
多义性涉及自然语言的深层语义,即人们的知识背景。这些知识背景包括交际参与者的相互关系、性别、种族、修养、社会地位、教育背景、家庭背景、居住环境、信仰等等。例如朱德熙先生给出的例句:
例4:他一天不吃饭也不行。
这句话就有两种意义。如果这句话是对一个北方人说的,那他理解的意义一般就会是“他一天也不能饿着”;而这句话如果是对一个南方人说,那他理解的又会是另外一层意义,即“他天天都得吃米饭”。
所以,人们对话语的理解是与理解者的背景知识相关的。有时候人们对话语的理解还要依赖于交际的场景,比如语言活动发生的地点、时间、场合、话题、交际方式、等等。也就是说,在自然语言交际中,人们理解话语时所获得的意义是经过其应用知识加工处理后的结果。我们称之为深层语义。人们的背景知识不一样,对一句话的理解也就会不一样,这就是为什么人们常说“一百个读者有一百个哈姆雷特”的原因。
多义性是自然语言的天性使然,是自然语言的本质特征之一。我们期望自然语言能够达到这样一种理想状况,使得每个词对应着唯一的概念,每个语言单位对应着唯一的意义,形成语言单位和其所要表达的概念间的映射。然而这是不可能的。首先,语言的经济性原则,人类的认知规律,以及人脑的对信息的理解和储存能力的有限性要求语言要以较少量的符号传递最大量的信息。本质上说,语言交流中传递的信息是缺省的,其中缺省的部分是由接收者自主添加的。因此这就不可避免地造成不同的接收者会用不同的知识去补充缺省值,从而就会有不同的理解。其次符号系统所表达的集合只能是可数的,而需要表达的对象却是不可数的。这个矛盾使得一个符号表达与其所表达的对象就不能是唯一的,而必定是多个的。这样就自然会造成自然语言中出现很多的多义概念,即语言单位的多义性。
(3) 模糊性:最早对“模糊”进行计算的是美国数学家扎德。在扎德的模糊数学中的模糊是指模糊子集的概念。我们把一个概念称为模糊概念,如果说这个概念的外延是一个模糊子集。也就是说,模糊概念所表示的客体的集合不是经典集合,而是模糊子集。若一个语言单位表达的概念是模糊概念,我们便称该语言单位具有模糊性。
模糊性是语言自身固有的特征之一。正因为如此,所以虽然在自然语言系统中普遍存在模糊性,但在通常的情况下它并不影响人们对话语的理解。例如:
例5:小王夜里经常不舒服,白天总是很疲倦。
这句话中有多个词是模糊的,但并不影响人们对这两句话的理解。相反,如果在一般性交际中,将“夜里”“经常”“不舒服”均换成精确的概念,则会让人感觉很迂腐,很啰嗦。
模糊性仍然是属于深层语义的。我们之所以把它单独列出来,是因为模糊性本身也是自然语言的一个重要特性。语言的模糊性主要是语言中话语所表达的中心意义明确而语义所反映对象的界限不确定的特征。在自然语言中,许多词语所表达的概念都是“模糊概念”。如“早晨”同“上午”、“下午”同“傍晚”、“傍晚”同“夜晚” 之间都很难划出一条截然分明的界限。此外还有“老年”、“中年”、“青年”、“美丽”、“高大”、……、等等都是模糊概念。扎德将这种定义在模糊子集上的符号称为语言变量。
使用模糊性是语言交际中一种有用的或者折中的艺术性措辞手段。适度地使用一些模糊概念,不至于把话说得太绝,可以使说话人避免陷入被动、尴尬的境地。比如,在外交辞令或有关外交关系的报道中,经常可以看到诸如“在适当的时候”或“在时机成熟时”、“妥善处理好两国的关系”之类的具有模糊性的措辞。这些模糊性的措辞既表达了说话方的一种明确意思,又给说话方留下了回旋的余地。
歧义性是不是模糊的呢?不是。因为歧义性是指语言单位的表层语义结构有多个,但其仍然是一个经典集合,而并非是一个模糊子集,所以不能称其为模糊的。多义性是不是模糊的呢?不一定。因为多义性是指语言单位所表达的概念有多个,但它们并不一定是模糊概念,所以也不能称其为模糊的。例如:
例6:他一直住在房子里。
人们认为这句话是多义的。句中的“房子”可以是泛指的房子,也可以是定指的房子,因而是多义。也有人称之为笼统。但是这是一个上属概念与下属概念的限定问题,并非是模糊的。因为“房子”这个概念的外延是经典集合,而非模糊子集。所以例6具有多义性,但不是模糊性。
由此我们可以看到,自然语言的模糊性是独立于歧义性与多义性之外的一个性质。
从计算语言的角度来说,将模糊性作为自然语言的独立性质予以明确的形式化定义,有利于我们使用模糊数学的工具来处理。
3.自然语言中歧义现象的形式定义
自然语言中的语言单位有语素、词、短语、句子。每个语言单位都表示为线性的符号串,如汉语符号串。我们称这种线性符号串为语言单位的语言形式。语言单位还有其内部结构,即其内部各成分之间的关系,我们称之为语义结构。语义结构不是线性的,而是复杂的网络结构。它刻画了某些概念标记以及它们之间的关系。语义结构不是传统意义上的语法结构,它是语言单位的浅层次语义的一种静态结构的描写,在理解过程中起着不可缺少的中介作用,我们称之为语言单位的表层语义。语义结构并不是语言单位的真正意义,语言单位的真正意义是基于领域知识,或背景知识,的动态计算后的结果。我们把这种经过知识处理后主观世界中产生的像称为语言单位的深层语义。
在自然语言处理中,语义处理是关键。在汉语的语法分析中语义起着主导作用。要让计算机处理好自然语言的语义,就必须给出自然语言语义的形式定义。为此,我们建立如下的自然语言计算模型。周经野(1993:42)
W* s N n n' M m m' 语言形式 表层语义 深层语义 G O P U 图4:自然语言的计算模型 令W为所有词的集合,N为所有语言单位内部结构的集合,M为基本意义单位集合。 分析函数P是从W*到N的映射,理解函数U是从N到M的幂集的映射;构思函数O是从M的幂集到N的映射,生成函数G是N到W*的映射。于是自然语言交流的全过程可以抽象为图所示的计算模型。依据这个计算模型,我们给出自然语言的语言单位的表层语义和深层语义的形式定义。