摘要:聚类分析是一种有效的入侵检测方法,可以从网络数据中区分正常流量和异常流量。本文提出一种模糊聚类分析方法,利用数据之间的相似度进行聚类,试验证明,该方法可以有效地检测网络入侵。
关键词:入侵检测;模糊聚类;Warshall算法
中图分类号:TP309 文献标识码: A
Abstract: Fuzzy Clustering is an effective method in intrusion detection,and it can distinguish normal traffic from abnormal traffic. This paper introduces a method based on Fuzzy Clustering, which can cluster the data with the similarity between the data. This method is effective to detect network intrusion according to the experiment.
Key words: intrusion detection; fuzzy clustering; Warshall algorithm. 0 引言:
当今社会信息安全问题引起全世界广泛关注,网络安全问题是创建信息化社会过程中所需解决的关键问题之一,随着人们对网络依赖程度的日益加深,建立行之有效的网络安全基础设施迫在眉睫。入侵检测是一种主动的安全措施,它从系统内部或网络中收集信息,从这些信息中分析是否存在安全入侵。
入侵检测技术主要分为两类,即:异常检测和误用检测。异常检测是建立用户正常行为轮廓和实际用户行为进行比较,标识出正常行为与非正常行为的偏离,此方法能检测未知的攻击类型,适应性强,但误报率高。误用检测是建立已知攻击模式识别入侵,误用检测系统将已知入侵场景的“特征动作”序列进行编码和匹配,此方法检测效率高,但对未知攻击并不能有效检测【5】。
1 基于聚类方法的入侵检测
聚类是指根据客体属性对一系列未分类客体进行类别的识别过程,它反映了数据的汇聚模式。创建聚类是把一组个体按照相似性归成若干类别,使得同一类内部的任意两个对象之间有较高的相似度,不同类别对象之间具有较高相异度。聚类的方法有很多种,如统计学、机器学习、数据库以及可视化等。
聚类概念的提出基于以下几个假设【1】:
(1)数据源中正常数据的数量远大于异常数据的数量;
(2)在合理标准计算下,具有相同分类的数据相似度较高,不同分类的数据相异度较高。
数据间的相似度一般用距离来表示。距离计算方法包括欧几里德距离、Manhattan距离,Minkowski距离。其中最常用的是欧几里德距离。
2 模糊聚类相关概念
传统聚类方法基于经典集合理论划分出便捷明确的自己,它要求全集中的对象要么属于某类,要么不属于某类。模糊聚类方法允许数据对象以不同隶属度同时属于几个不同的类。模糊聚类比一般聚类更贴切描述事物的真实情况,因为许多类边界之间的对象很难说清楚。它具体属于哪一类是很模糊的,它们更适合于被赋予值介于0-1之间隶属度表示它们归属程度。
2.1 模糊关系
定义1【4】:
设u、v为两个论域,称u×v上的模糊集R为从U到V的一个模糊关系,即,对(x,y)∈u×v,都指定它对R的隶属度R(x,y)
R: u×v→[0,1]
定义2【4】:
若u与v都是有限论域,则模糊关系R=(rij)可用一个矩阵来表示,其中矩阵R的元素定义为:rij=R(xi,yj) 0≤rij≤1(1≤i,j≤n)
矩阵R称为模糊矩阵。
2.2 模糊关系运算和性质
定义3【4】:
设R=,S=,则定义T =R S的元素为: ,称T为R对 S的合成,也称T为R对S的模糊乘积。
定义4【4】:
设R,S皆为m行n列模糊矩阵(模糊关系),R=(rij),S=(Sij),则可通过模糊矩阵表示R与S的截矩阵(截关系):
=( ) 其中
由此显然看出,模糊矩阵R的截矩阵是一个布尔矩阵。
2.3 模糊等价关系与模糊相似关系
定义5【4】:
设R=为论域U上的模糊矩阵(模糊关系),
(1)若对任意的i都有=1,则称R满足自反性。
(2)若对任意的i,j都有=,则称R满足对称性。
(3)若有R R R ,则称R满足传递性。
称满足自反性、对称性和传递性的模糊关系为模糊等价关系;称仅满足自反性和对称性的模糊关系为模糊相似关系。
R为模糊等价关系的充要条件是对任意的∈[0,1], 截矩阵是经典集合论中的等价关系。在经典集合中,等价关系对应论域上的一个划分,即等价关系可用于对论域对象进行分类,当模糊等价关系确定后,给定一个∈[0,1]时,可得到一个普通的等价关系,从而得到一个水平的分类。
3 基于相似度的模糊聚类算法
3.1 构建相似系数矩阵
设有n个对象的总体U={x1,x2,…xn},xi为要检测的对象,每个对象xi由抽取的m个特征来描述,即
xi={xi1, xi2,…xim}
为了计算U中数据的聚集程度,首先计算各对象两两之间相似系数rij ,并构成相似系数矩阵【4】
其中rij 表示对象xi 和对象xj的相似程度,称为相似系数,问题的关键在于合理求出相似系数rij,rij的选取有一系列方法,在这里我们选用一种绝对值减数法