摘要:MTS(马田系统)是一种新的模式识别技术,这种技术的主要思想是通过构造一多维基准测量空间对多维数据资料进行诊断与预测。本文研究了马田系统基本原理的两种类型:基本马田系统模型(MTS)与Gram-Schmidt正交化的马田系统模型(MTGS),并应用马田系统的方法对Fisher关于鸢尾花类型的判别问题进行研究,显示了MTS方法良好的判别效果。
关键字:MTS,MTGS,判别分析
Abstract:Mahalanobis-Taguchi System (MTS) is a pattern recognition technology which is aimed at providing a better diagnosis and prediction for multivariate data through the construction of a multivariate measurement scale. This article introduces the basic principle of MTS model, and Fisher’s iris data are analyzed to demonstrate the effectiveness of the MTS.
Key Words:MTS, MTGS, Discriminant Analysis
1 引言
随着科学信息技术的日益发展,企业组织获取信息其想要的数据资料并非难事,关键是如何对所获得数据进行处理,从中提取有用信息并以此做出正确决策。对数据资料进行分类和判别是企业组织处理数据的主要任务之一。传统的一些方法,如决策树、聚类分析、判别分析等,已经应用于数据分类和判别中。但是,这些方法往往需要某些限定条件,而这些条件在现实中又常常是不可行的。
马田系统(Mahalanobis-Taguchi System, MTS)是由田口玄一博士首先提出的一种新的模式识别方法,是质量工程学的最新进展之一。马田系统整合了马氏距离、正交表以及信噪比等工具,它可对数据进行分析而无需任何假定。马田系统主要有诊断和预测这两方面的应用。
本文首先研究了马田系统基本原理,并在Fisher的鸢尾花数据基础上应用马田系统进行判别分析。
2 马田系统的基本原理
2.1 MTS法
⑴基准空间的构造
基准空间是判断事件是否发生的基准,是由正常情况样品数据所构造。为构造基准空间,首先需要确定测量特征项目,然后再抽取n个正常情况下的样品,其测量数据Xij(假定已标准化)构成基准空间数据矩阵,如表1所示。
表1 基准空间数据矩阵
⑵基准空间的有效性确认
同时采集正常和异常情况下的样品,并计算它们至基准空间的马氏距离。样品j的马氏距离计算公式如式(1)所示:
(1)
其中X j=(X j 1, X j 2,…,X jk),R为特征的相关矩阵。当样品属于基准空间时,其距离的期望值为1,而样品不属于基准空间时,其距离值会大于某个临界值。据此可以确定基准空间的有效性。
0 2 4 6 8 10 12 14 基准空间样品 不属于基准空间样品 图1 基准空间有效性确认
⑶基准空间的优化
根据测量特征项目的数量选择合适的二水平正交表。定义水平1为“使用该特征”,水平2为“不使用该特征”。将测量特征项目作为可控因素安排到表中成为内表,再将d个异常样品安排到外表。表2为k=7的内外表设计。
表2 k=7时的内外表设计 项目
序号 A B C D E F G 马氏距离 η ξ1 ξ2 … ξd 1 1 1 1 1 1 1 1 2 1 1 1 2 2 2 2 3 1 2 2 1 1 2 2 4 1 2 2 2 2 1 1 5 2 1 2 1 2 1 2 6 2 1 2 2 1 2 1 7 2 2 1 1 2 2 1 8 2 2 1 2 1 1 2 T1 T2 ΔT=T1-T2 表2中,由于每行所使用测量特征项目的不同,构成了8个不同的基准空间。对每一个基准空间,计算外表中样品至基准空间的马氏距离,并根据望大特性计算信噪比η,计算公式如式(2)所示。
(2)
其中Di为马氏距离值。表2中T1和T2分别是测量特征项目在水平1和水平2下的信噪比之和。
设表2计算的信噪比效应图如图2所示。图中效应线向右上倾斜()表明该特征指标具有负的作用,如C、D。这些指标应该舍弃。对于向左上倾斜的指标,若斜度不大(),也可考舍弃该指标,如G。最终由余下的测量特征项目构建基准空间。
图2 信噪比效应图
同样需对优化后的基准空间进行有效性检验。如果判别能力较之原来有所下降,则说明向左上倾斜不大的项目不应被舍弃。
⑷临界值的确定
临界值c的确定有三种方法:①根据经验确定;②根据计测项目空间维数的大小和小概率α查F分布表进行取值;③由损失函数法得到。文献[2]对损失函数法确定临界值有较为详细的叙述。
2.2 Gram-Schmidt正交化的马田系统(MTGS法)
MTGS法与MTS法基本原理是相同的,主要区别为马氏距离的计算方法有所不同。
给定一组线形无关向量组(Z1, Z2, …, Zk),可通过Gram-Schmidt正交化过程得到一组规范正交基(U1, U2, …, Uk),如式(3)所示:
(3)
MTGS法的马氏距离可通过上述Gram-Schmidt正交化过程而计算得到。假定有n个样品,k个特征项目。经过标准化后,得到k个标准向量,并用Gram-Schmidt正交化方法将这组向量规范正交化,得到
Y 1=(Y11, Y21, …, Y n 1)
Y 2=(Y12, Y22, …, Y n 2)
……
Y k=(Y1k, Y2k, …, Ynk)
因而样品j的马氏距离计算公式如式(4)所示:
(4)
其中,si为Yi=(Y1i, Y2i, …, Yni)的标准差。文献[2]中证明了公式(1)与公式(3)所计算得到的马氏距离是等价的。
与MTS法相比,MTGS一个最重要的优势是能够区别异常值的类型(好的或是不好的)。文献[2]中给出了判别规则:
且