[摘要] 模糊聚类分析法是应用模糊数学的观点和理论,通过建立模糊相似关系而后将客观事物予以分类的一种数学方法。由于语言中的文字信息不同于自然学科中的数据信息,所以在对汉语同义词进行模糊聚类分析时,需要想办法将语言信息数量化。本文将相似性科学中关于系统要素数量的相似度计算方法引入到同义词的相似性研究中,以现代语义学提出的义素分析法作为量化语言信息的桥梁,不仅很好地体现了不同学科的结合,而且使我们对词语的同义现象有了一个全新的认识。
[关键词] 汉语;同义词;模糊聚类分析
引 言
所谓聚类分析,就是用数学的方法对事物按一定的要求进行分类。[1]在模糊数学产生之前,聚类分析已是数理统计多元分析的一个分支,有着广泛的实际应用。模糊理论,又称模糊学,是诞生于20世纪60年代的一门新兴的科学理论,由美国系统控制科学家札德(L.A.Zadeh)于1965年首次提出,其基础是模糊集合论,它的核心思想为研究对象所构成的类中的成员向非成员的过渡是逐渐的,而非一刀切的。聚类的实质就是把具有相似性质的事物区分开来,然而在现实中,事物彼此之间的相似关系往往伴有模糊性,这导致一个事物是否属于某一类,并不是泾渭分明的,因此,模糊聚类分析就应运而生了。应用模糊数学的理论和方法所进行的聚类分析,称为模糊聚类分析,用模糊聚类分析得到的分类结果,往往更符合实际。[2]
迄今为止,模糊聚类分析法已在自然科学的多个领域得到了成功应用,原因就在于自然科学中样本的特征是以数据形式给出的,计算它们彼此之间的相似系数有很多种数学方法可供选择。而我们此处作为模糊聚类分析样本的是语言中的同义词,它们的基本信息是用文字表达的,要想通过确定同义词彼此之间的相似系数来实现对它们的模糊聚类分析,就需要另辟蹊径,想办法将用文字表达的语言信息数量化。本文尝试着使用了不同学科的理论观点和操作方法,对汉语中的同义词作了模糊聚类分析。
一、词语同义关系的模糊性及其矩阵表示
模糊关系体现的是关系外延的不确定性,语言中词语的同义关系就具有这样的特征。词语的同义关系是靠同义词来体现的,同义词指意义相同或相近的词。但是,怎样才算意义相同或相近,意义究竟相近到什么程度才能叫做同义词,这些都是不确定的,换句话说,词语的同义关系具有模糊性。一般而言,同义词的词义是同中有异的。同义词的“同”是它们得以聚为一类的前提,同义词的“异”则是对它们进行相对分类的基础。词语同义关系本身的模糊性为同义词的模糊聚类分析提供了可能。
我们把具有同义关系的词语所形成的集合称为同义聚合体,如果两个词语彼此之间毫无关系,那它们就被排除在同义聚合体之外,其余所有的进入同义聚合体中的词语相互之间的关系都应有一种程度上的不同,我们把这种不同的程度视为词语对同义关系的隶属度,取值为单位区间[0,1]。因为该隶属度体现的是同义词之间的相似程度,所以我们把它称为同义词间的相似系数,用r来表示。若两个词语之间完全没有同义关系,则r=0;若两个词语完全同义,是意义相互之间的一致程度达到百分之百的等义词,则r=1。大多数同义词是同中有异的,它们之间的相似系数应该介于0和1之间。
![]()
“在有限论域中,给定一个模糊关系,就惟一确定一个模糊矩阵;反之,给定一个模糊矩阵,也惟一确定一个模糊关系。即模糊关系与模糊矩阵建立了一一对应的关系。”[3]因此,在以下的讨论中,我们将对模糊关系与模糊矩阵不加区别,均以来表示。
词语的同义关系是一种模糊关系,故可以用模糊矩阵来予以形式化的描述。由于同义关系具有自反性和对称性,即词语自身与自身完全相似且词语间的相似程度不因词语相互顺序的改变而改变,故而词语的同义关系是一种模糊相似关系,这样势必要求描述它的矩阵是一个主对角线为1且行数与列数相等的方阵,即为模糊相似矩阵:
![]()
=
描述同义关系的模糊相似矩阵中的元素就是同义词之间的相似系数,为了能够对同义词进行模糊聚类分析,我们需要先来确定同义词之间的相似系数。
二、同义词间相似系数的确定方法
语言中的词语不是孤立存在的,它们往往要通过自身所具备的语音、词汇或语法等方面的某些共同特点,而产生各种不同的类聚。同义聚合体就是词汇意义相同或相近的同义词语的聚合。在这个聚合体中,并不是每个成员都能同时出现在不同组合关系的同一位置上,这是因为同义词语之间存在着差异,正是这差异规定着词语在组合当中可以相互替换的程度。因此,对同义词进行研究,考察词语相互之间的差异很重要:差异大的,词语在组合中可替换的程度就低;差异小的,词语在组合中可替换的程度就高,这差异实际上反映的是同义词之间的相似程度。由于模糊聚类分析需要这个相似程度的数量表示,因此我们引入相似性科学中的有关方法来进行分析。
相似性科学是“以相似性和相似系统为研究对象,主要研究自然界、人类社会、工程技术和认知思维中的相似性规律及其应用的科学。”[4]在实际应用中,我们不仅需要用语言来描述事物间客观存在的相似特性,而且需要通过系统间的共有要素数量及其特征值的差别来分析和度量相似性。系统相似性程度的数值大小可以用相似度来表示,记为Q,相似度Q的值域为0≤Q≤1。Q=1表示系统间组成要素的数量及特性完全相同,是相同系统;Q=0表示系统间组成要素的数量及特性完全不同,是相异系统。大多数系统间存在着或多或少的相似性,只是相似程度的大小不同而已,因此,系统间组成要素和特性部分相同的相似系统的相似度取值为0
系统相似度的数值度量包括组成要素的数量相似度量和特性相似度量两方面。实现对相似系统要素特性的数值度量,需要获取每一个特性的特征值,相似系统间对应要素特性的特征值的比例系数就反映了系统要素特性的相似程度。[6]由于语言的特性都是用文字来描述的,不能像物理量那样具体测量它的特征值,所以很难进行相似系统要素特性的定量分析。这里我们仅从相似系统组成要素的数量分析入手,着重介绍数量相似度的计算方法,这也是鉴于语言的特殊性而在方法上作出的选择。
![]()
《湘潮下半月》
编辑QQ
编辑联络
