正文:[10]。
本文基于算法层面,利用信息熵值来确定改进型支持向量机的惩罚因子以平衡多数类对分类机过多的影响,有利于少数类分类精度的提高。
3改进型支持向量机模型及其信息熵参数确定法3.1算法原理
支持向量机(SVM)试图寻找一个能够划分两类数据的最优超平面,将一个二分类问题转化成一个二次规划问题
[11,12]。它将分类数据(训练集)抽象的分成线性可分、近似线性可分以及线性不可分三种类型。模型建立,是通过一个核函数
K(xi,xj)将样本数据从低维空间映射到一个高维空间,把一个线性不可分的问题转化成一个近似线性可分的问题。然后,引入松弛变量
ζi把近似线性可分软化成线性可分问题。特别的,若原始数据集近似线性可分,则省去核函数
K(xi,xj)直接利用向量内积;若为线性可分则令松驰变量
ζi =0。综上所述,得到一个统一的二次优化模型C-SVM。
然而通过核函数映射得到的线性样本,不能保证映射后的样本没有边界交叉点,所以引入松弛变量去软化分类超平面,目的是使模型对边界交叉点不过于敏感。为此必需付出一定的代价,应予以惩罚这一软化行为。另外考虑客户流失数据的不平衡性,以及犯第一类错误和第二错误导致的成本不一样,给予正负两类不同的惩罚因子(负类为在网用户、正类为离线客户),得到改进型的支持向量机模型E-SVM。

其中
yi=1,为正类,
yi=-1为负类;
w为权重向量(分类面的法向量)、
ζi 为松驰变量、
b为偏差系数,
E+为正类惩罚因子系数、
E-为负类惩罚因子系数。为了模型计算的简便性,引出其拉格朗日对偶模型:

解出上式得最优值

,决策函数

可化为

其中

,由此可见决策函数
f(x)只与

有关,每个分量

对应一训练点,只有

时对决策函数起作用,这些非零分量所对应的训练点就是所谓的支持向量或者说是边界点。
3.2信息熵的参数确定方法
在求解上述模型时必须先计算出两不同的惩罚因子数。
Ex它表征的是对样本点的重视程度,
Ex越大表示越不想丢掉这一类样本点,但当其大到一定程度时,模型的推广能力达到最佳程度,如果其断续增大就会影响到整个模型的预测精度,所以
Ex取值要适当。目前
Ex的求解方法概括起来有两类:直接样本比例计算法和实验调优法。(1)直接计算法是利用两类样本的各自所占总体样本的比例来确定,算式如下
l+代表正类样本数,
l-代表负类样本数,
l为总的样本数,C为待定参数。这里把这种参数确定法的模型记为C
1-SVM。其计算方法简便易行,但只是数值表面上的合理性,参数的变化幅度太大容易超过
Ex的极限值,夸大样本的重要性程度,降低模型的推广能力,并且算式中还有一待定参数C,它的选取具有主观性。(2)实验的方法是选择一定的样本后,给模型参数E
+和E
-赋予初值,代入数据计算结果。然后根据实验结果不断修正参数直到满意为止。此方法基本是凭经验调整,缺乏足够的理论依据,对不同的核函数,不同的样本数其调整结果也不尽相同。因此,在参数调整过程中带有一定的盲目性,且当需要调整幅度较大时其调整次数较多,实验比较复杂。这里把由实验法得到参数的模型记为C
2-SVM。
采用信息熵的参数确定方法综合了计算法和实验法的优点,操作简单、方便,更能反应出参数与样本联系的本质特征,客观的刻画了样本的重要性程度。
信息熵(Entropy)是对事物不确定性的一种度量,它由信息论的奠基者香农在1948年发表的通信的数学原理中首次提出
[13]。其计算公式为:

信息熵的定义表明:(1)变量的不确定性越大,熵值也就越大。(2)一个系统越是有序,熵值就越小,反之,一个系统越是混乱,熵值越大。(3)在同等外在条件下,样本越少,其不确定性就越大,排列分布更为多样化,因此,系统就表现得更为混乱无序。(4)熵值的变化区间幅度较小。综上可得,熵值客观真实的反映出了样本的重要性程度,它是样本重要性程度的一个度量,表现为样本的重要性程度是
Ex极限区间内相应惩罚因子数的一个单调的缓慢增函数。所以,利用熵值来确定惩罚因子,有其内在的合理性。
一个训练集可以看成一个大的系统,正负两类可以看作是两个子系统。非平衡数据集中的正负两类样本数相差悬殊,两子系统所含熵值相差很大。样本量越少的系统,其有序程度就越低,熵值也就越大,每个样本体现出其重要性程度就越高,样本给予分类学习机提供的信息量就越大。如果少数类的样本被错分直接导致第一类错误率上升,损失明显增大,应该尽量避免这种情况的发生。同一类别的样本又可分为边界样本与界内样本两种状态,对支持向量机而言虽然只有边界样本起作用,但两种状态样本反映的系统状态信息是一致的,因此确定了总体样本的惩罚因子,也就确定了边界样本的惩罚因子。
电信客户数据是一个不平衡数据集,正类(流失客户)明显少于负类(非流失客户),即正类能够为学习机提供信息的边界总样本量少于负类,因而每个样本所含有的信息量就越大,如果对两类样本的软化惩罚行为不予以区别的对待,这样的样本(流失客户)错分率上升就会明显的影响到分类机的学习效果。考虑到成本最小化因素,应尽量去避免发生第一类错误的机率,要重视正类样本的划分正确率。信息熵值法正是对这一惩罚行为实现了量化处理,这样大大提高了正类的分类精度,使企业提高了客户挽留的成功率,极大的减少了运营成本。公式如下:
2/4 首页 上一页 1 2 3 4 下一页 尾页