聚类选取的置信水平值来源于同义词之间的相似系数,也就是说同义词间不同的聚合水平仍取决于它们之间的相似程度,只是这个聚合水平不完全等同于同义词两两之间的相似系数。例如在上面的例子中,虽然词语“宏大”与“庞大”的相似系数为0.33,但它们的聚合水平值却是0.50,这是因为“庞大”、“巨大”、“硕大”三词早在0.75的水平上就已聚为一类,所以可将较小的相似系数忽略掉,只取“宏大”与已有分类中的三个词语彼此之间的相似系数最大的那个值(“宏大”与“硕大”的相似系数为0.50)作为聚合水平值,这体现了模糊等价关系的传递性。事实上,在对同义词进行模糊聚类分析时,由模糊相似矩阵出发求传递闭包的过程,就是忽略一种分类中的词语与另一种分类中的词语相互之间数值较小的相似系数的过程,构造出的模糊等价矩阵中的元素就是同义词相互之间的聚合水平值。
结 语
模糊聚类分析法在自然科学中的应用已屡见不鲜,要想将其应用到语言学领域的同义词研究中,就需要另辟蹊径。本文尝试将相似性科学中关于系统相似度的数值度量方法引入到同义词的相似性研究中,以义素分析法为中介来对同义词之间的相似程度进行量化,并以该量化数据为基础构造模糊等价矩阵,从而对同义词进行了模糊聚类分析。
需要指出的是,模糊聚类选取的置信水平值来源于同义词之间的相似系数,而这相似系数的确定直接取决于对词语所做的义素分析的结果如何,因此,合理的义素分析是模糊聚类结果合理性的保障。就义素分析法本身而言,目前在具体的操作上还有一定难度,所以,在分析确定义素时,难免带有一定的主观性和相对性。本文对同义词所做的义素分析虽然本于词典释义,但也是建立在我个人对词义的理解和把握的基础之上的,故而错漏之处在所难免。
利用模糊数学中的有关理论和方法来研究语言中的模糊现象,是一个极富意义且具有广阔前景的研究课题。限于个人的能力和水平,文中使用的一些方法肯定存在着不足之处,期待着日后随着认识的深化而能有所改进。
参考文献
[1] L.A.Zadeh. Fuzzy Sets[J].Information and Control,1965,(8).
[2] 陈水利,李敬功,王向公.模糊集理论及其应用[M].北京:科学出版社,2005.
[3] 杨纶标,高英仪.模糊数学原理及应用[M].广州:华南理工大学出版社,2001.
[4] 王新洲,史文中,王树良.模糊空间信息处理[M].武昌:武汉大学出版社,2003.
[5] 李鸿吉.模糊数学基础及实用算法[M].北京:科学出版社,2005.
[6] 周美立.相似性科学[M].北京:科学出版社,2004.
[7] 梅家驹等.同义词词林[M].上海:上海辞书出版社,1983.
[8] 中国社会科学院语言研究所.现代汉语词典[M].北京:商务印书馆,2005.
[9] 贾彦德.汉语语义学[M].北京:北京大学出版社,1999.
[10] 张志毅,张庆云.词汇语义学[M].北京:商务印书馆,2001.
[11] 葛本仪.语言学概论[M].济南:山东大学出版社,1999.
[12] 曹炜.现代汉语词义学[M].上海:学林出版社,2001. [1] 参考杨纶标,高英仪.模糊数学原理及应用[M].广州:华南理工大学出版社,2001:115. [2] 参考王新洲,史文中,王树良.模糊空间信息处理[M].武昌:武汉大学出版社,2003:59. [3] 陈水利,李敬功,王向公.模糊集理论及其应用[M].北京:科学出版社,2005:61. [4] 周美立.相似性科学[M].北京:科学出版社,2004:5. [5] 参考周美立.相似性科学[M].北京:科学出版社,2004:7. [6] 参考周美立.相似性科学[M].北京:科学出版社,2004:38. [7] 参考周美立.相似性科学[M].北京:科学出版社,2004:66. [8] 张志毅,张庆云.词汇语义学[M].北京:商务印书馆,2001:16. [9] 参考贾彦德.汉语语义学[M].北京:北京大学出版社,1999:149. [10] 葛本仪.语言学概论[M].济南:山东大学出版社,1999:153. [11] 参考贾彦德.汉语语义学[M].北京:北京大学出版社,1999:58.
《湘潮下半月》
编辑QQ
编辑联络
