其中,c值的选取是关键,务必使rij∈[0,1]。
可以容易看出R是模糊相似矩阵,但不一定是模糊等价矩阵,不能直接用于分类,可以采用传递闭包法建立模糊等价矩阵。
3.2 构建传递闭包矩阵
传递闭包法法的主要思想是首先需要通过标定得到模糊相似矩阵,然后求出包含矩阵R的传递闭包t(R),最后根据t(R)进行聚类。在这方面,Warshall算法在求解传递闭包中得到广泛应用,在这里我们采用文献[3]提出的-Warshall算法求解传递闭包矩阵。这样求出等价类后可以进行聚类。
-Warshall算法的主要思想是,从一个模糊相似矩阵R出发,利用求传递闭包的方法构造一个模糊等价矩阵用来分类,以下是具体的算法【3】:
(1)A←MR,,A=(aij)
(2)for j=1 to N
(3)for i=1 to N
(4)for k=1 to N
(5) if aij≥,then aik=aik∨ajk
其中:“∨”表示关系的取大运算。
3.3 设计方案
设计方案步骤:
我们利用传递闭包方法进行模糊聚类的流程如下:
Step 1:从网络中采集数据记录集;
Step 2:对所选数据连接记录进行离散化和标准化处理,使各属性取值范围为[0,1]。
Step 3:利用上面提到的绝对值减数法计算网络连接记录集两两之间的相似度,形成相似矩阵R 。
Step 4:利用-Warshall 方法求出模糊相似关系矩阵的传递闭包。
Step 5:由传递闭包得出等价类,从而对数据进行分类。
4 实验
本文所采用的数据集来自KDDcup1999,该数据集包含了四大类入侵类型,它们分别是PROBE,R2L,U2R和DoS。我们从中选取2000个正常记录和40个入侵记录,入侵记录包含以上四种攻击。
4.1 数据预处理
由于数据的各个属性表示数据的各种性质,它们的度量单位往往不同,各个属性的数值范围相差也很悬殊,这样一来绝对值大的属性就可能会湮没绝对值小的属性,使后者属性应有的作用得不到反映。所以为了确保各属性在分析中的地位相同,必须对数据进行中心化和标准化的处理。
(1)标准化处理。
令 i,j=1,2,…,n
其中,它表示数据集中第j维特征属性的均值,,它表示数据集中第j维特征属性的标准差。经过此变换处理后,各个特征属性的均值为0,方差为1。但是各个特征属性的取值范围很可能不在[0,1]之间,所以我们必须进行极差正规化的处理。
(2)极差正规化处理。
其中表示第j个特征属性的极差,经过此变换后,各变量的最小值为0,极差均为1,各特征属性的基点相同,变化范围也相同。
4.2 试验结果分析
以下为实验结果:
表1 实验结果
聚类数目 检测率 误检率
0.7 5 63.5 0.93
0.75 7 67.4 0.87
0.8 8 69.3 0.65
0.85 10 65.4 0.97
0.9 14 61.2 1.42
通过试验结果来看,此种基于模糊聚类的方法可以有效地检测入侵,同时我们注意到,值的合理选取是对试验影响较大,如果值过大,则分类数目就会很多,攻击数据就会相对比较分散,如果值过小,则分类数目就会相对来说减少,攻击数据就会容易分散在正常数据中,导致误检率的上升。
通过试验得知,值控制在0.8左右可以有效检测攻击,降低误检率。
结束语
本文介绍了一种很有前景的入侵检测算法。本方法是基于模糊聚类的,利用数据记录间的相似关系形成相似关系矩阵,并通过传递闭包方法得到等价关系矩阵,从而进行数据的分类。实验证明,本算法可以大幅度提高入侵检测的效率。 参考文献:
[1]黄斌,史亮,姜青山,吴楠楠. 基于孤立点挖掘的入侵检测技术[J]. 计算机工程. 2008,34(3),88-90.
[2]朱卫平,王卫平. 基于模糊聚类分析的入侵检测方法[J]. 系统工程与电子技术,28(3),474 -477.
[3]李刚,刘宏兵,冯岩. 基于-Warshall算法的聚类方法[J].计算机工程与设计.2008,29(8),1903-1905.
[4]李雄飞,李军. 数据挖掘与知识发现[M]. 高等教育出版社.2003,65-91.
[5]肖敏,韩继军,肖德宝,吴 峥,徐慧. 基于聚类的入侵检测研究综述[J].计算机应用. 2008,28,34-40. ---------------------------------