则第j个异常值的类型是好的;否则不好。但是,当特征项目的类型(望大或望小)未知时,则无法对异常值类型进行区分,这将是今后的一个研究方向。
3 案例研究
3.1 问题的提出
Fisher于1936年发表论文对鸢尾花类型的识别问题进行了研究,其所使用的方法即所谓Fisher判别法。[3]本文将采用马田系统方法对鸢尾花识别问题进行研究。文中数据的统计和正交设计分析所用软件均为minitab14。
3.2 定义基准总体与特征变量
Fisher在其论文中对三种鸢尾花——刚毛鸢尾花(第1组)、变色鸢尾花(第2组)和弗吉尼亚鸢尾花(第3组)各抽取容量为50的样本,测量其花萼长A、花萼宽B、花瓣长C以及花瓣宽D。
在应用马田系统中,以Fisher所提供数据为基础,我们定义刚毛鸢尾花(第1组)为基准总体,需测量的特征项目仍为花萼长A、花萼宽B、花瓣长C以及花瓣宽D。
3.3 构造基准空间及有效性确认
我们将样品数据分为训练样品和试验样品,每一组的训练样品35个、试验样品15个。首先以第1组数据作为正常总体,通过其训练样品构造第1组的基准空间。各样品至第1组基准空间的马氏距离分布如图3所示。其中,第一组训练样品马氏距离值的分布范围为0.1245~2.8687,均值为0.9714,试验样品马氏距离值的分布范围为0.1676~3.1975;第2组马氏距离值的分布范围为25.8849~102.3024;第3组马氏距离值的分布范围为81.5116~239.4420。
图3 马氏距离值的分布
3.4 基准空间优化
本例中有4个特征项目,因而选择二水平正交表L8,如表3所示。表中,水平1代表“使用该特征”,水平2代表“不使用该特征”。随机从第2组和第3组中抽取样品共5个,计算在每一行基准空间下的马氏距离,并根据公式(2)计算信噪比η。由信噪比可以得出:花萼长A、花瓣长C以及花瓣宽D为有效特征。
表3 正交表L8 项目
序号 A B C D M1 M2 M3 M4 M5 η ξ1 ξ2 ξ3 ξ4 ξ5 1 1 1 1 1 1 1 1 82.475 84.499 90.653 144.772 152.556 40.0049 2 1 1 1 2 2 2 2 101.976 99.921 108.790 170.483 171.357 41.5580 3 1 2 2 1 1 2 2 63.058 62.656 97.601 153.026 185.392 38.6456 4 1 2 2 2 2 1 1 17.804 11.554 6.649 15.571 22.720 21.0429 5 2 1 2 1 2 1 2 68.798 76.358 99.717 161.872 191.749 39.5962 6 2 1 2 2 1 2 1 2.760 10.685 0.347 2.760 0.735 -3.1825 7 2 2 1 1 2 2 1 142.639 135.330 173.145 268.163 286.847 44.8634 8 2 2 1 2 1 1 2 269.837 252.953 305.239 468.663 468.663 50.0699 T1 141.24 117.96 176.48 163.12 T1 131.36 154.64 96.12 109.48 ΔT= T1-T2 9.92 -36.68 80.36 53.64
3.5 优化基准空间的验证
剔除无用特征B,重新构造基准空间,并计算各样品的马氏距离,其分布图如图5所示。其中,第一组训练样品马氏距离值的分布范围为0.05933~3.7782,均值为0.9714,试验样品马氏距离值的分布范围为0.0190~3.1975;第2组马氏距离值的分布范围为29.7694~125.5988;第3组马氏距离值的分布范围为106.0979~277.5988。从图中可以看出,第2组与第3组的马氏距离值有小部分重合,而第1组样品与其他两组有明显差异。这里k=3,取α=0.05,查F分布表可得第一组区别其他两组的临界值为2.60,其识别准确率达100%。
图4 优化后马氏距离值的分布
3.6 判别结果
以有效特征和各组的训练样品构造各组的基准空间,并对试验样品进行识别,其识别结果如表4所示。总体识别准确率为97.77%,显示了良好的识别效果。
表4 各组别识别结果
参考文献
[1]李昭阳,韩之俊.一种新的判别预测方法——马田系统(MTS)[J].管理工程学报,2000.2
[2]Genichi Taguchi, Rajesh Jugulum.The Mahalanobis-Taguchi Strategy[M].John Wiley & Sons, Inc.,2002
[3]Fisher, R.A. The use of multiple measurements in taxonomic problems [J]. Annals of Eugenics, No.7, 1936
[4]Genichi Taguchi, Subir Chowdhury, Yuin Wu.The Mahalanobis-Taguchi System[M].The McGraw-Hill Companies, Inc.,2000