基于信息熵的改进型支持向量机客户流失预测模型应用研究

来源：互联网 qikanw | 方磊马溪骏

【分　类】机械与建筑工程
【关键词】支持向量机、不平衡数据、信息熵、分类预测、客户流失
【来　源】互联网
【收　录】中文学术期刊网

正文：
^[10]。
本文基于算法层面，利用信息熵值来确定改进型支持向量机的惩罚因子以平衡多数类对分类机过多的影响，有利于少数类分类精度的提高。
3改进型支持向量机模型及其信息熵参数确定法
3.1算法原理
支持向量机（SVM）试图寻找一个能够划分两类数据的最优超平面，将一个二分类问题转化成一个二次规划问题^[11,12]。它将分类数据（训练集）抽象的分成线性可分、近似线性可分以及线性不可分三种类型。模型建立，是通过一个核函数K（x_i，x_j）将样本数据从低维空间映射到一个高维空间，把一个线性不可分的问题转化成一个近似线性可分的问题。然后，引入松弛变量ζ_i把近似线性可分软化成线性可分问题。特别的，若原始数据集近似线性可分，则省去核函数K（x_i，x_j）直接利用向量内积；若为线性可分则令松驰变量ζ_i =0。综上所述，得到一个统一的二次优化模型C-SVM。
然而通过核函数映射得到的线性样本，不能保证映射后的样本没有边界交叉点，所以引入松弛变量去软化分类超平面，目的是使模型对边界交叉点不过于敏感。为此必需付出一定的代价，应予以惩罚这一软化行为。另外考虑客户流失数据的不平衡性，以及犯第一类错误和第二错误导致的成本不一样，给予正负两类不同的惩罚因子（负类为在网用户、正类为离线客户），得到改进型的支持向量机模型E-SVM。

其中y_i=1，为正类，y_i=-1为负类；w为权重向量（分类面的法向量）、ζ_i 为松驰变量、b为偏差系数，E₊为正类惩罚因子系数、E_-为负类惩罚因子系数。为了模型计算的简便性，引出其拉格朗日对偶模型：

解出上式得最优值

，决策函数

可化为

其中

，由此可见决策函数f（x）只与

有关，每个分量

对应一训练点，只有

时对决策函数起作用，这些非零分量所对应的训练点就是所谓的支持向量或者说是边界点。
3.2信息熵的参数确定方法
在求解上述模型时必须先计算出两不同的惩罚因子数。E_x它表征的是对样本点的重视程度，E_x越大表示越不想丢掉这一类样本点，但当其大到一定程度时，模型的推广能力达到最佳程度，如果其断续增大就会影响到整个模型的预测精度，所以E_x取值要适当。目前E_x的求解方法概括起来有两类：直接样本比例计算法和实验调优法。（1）直接计算法是利用两类样本的各自所占总体样本的比例来确定，算式如下

l₊代表正类样本数，l_-代表负类样本数，l为总的样本数，C为待定参数。这里把这种参数确定法的模型记为C₁-SVM。其计算方法简便易行，但只是数值表面上的合理性，参数的变化幅度太大容易超过E_x的极限值，夸大样本的重要性程度，降低模型的推广能力，并且算式中还有一待定参数C，它的选取具有主观性。（2）实验的方法是选择一定的样本后，给模型参数E₊和E_-赋予初值，代入数据计算结果。然后根据实验结果不断修正参数直到满意为止。此方法基本是凭经验调整，缺乏足够的理论依据，对不同的核函数，不同的样本数其调整结果也不尽相同。因此，在参数调整过程中带有一定的盲目性，且当需要调整幅度较大时其调整次数较多，实验比较复杂。这里把由实验法得到参数的模型记为C₂-SVM。
采用信息熵的参数确定方法综合了计算法和实验法的优点，操作简单、方便，更能反应出参数与样本联系的本质特征，客观的刻画了样本的重要性程度。
信息熵（Entropy）是对事物不确定性的一种度量，它由信息论的奠基者香农在1948年发表的通信的数学原理中首次提出^[13]。其计算公式为：

信息熵的定义表明：（1）变量的不确定性越大，熵值也就越大。（2）一个系统越是有序，熵值就越小，反之，一个系统越是混乱，熵值越大。(3)在同等外在条件下，样本越少，其不确定性就越大，排列分布更为多样化，因此，系统就表现得更为混乱无序。（4）熵值的变化区间幅度较小。综上可得，熵值客观真实的反映出了样本的重要性程度，它是样本重要性程度的一个度量，表现为样本的重要性程度是E_x极限区间内相应惩罚因子数的一个单调的缓慢增函数。所以，利用熵值来确定惩罚因子，有其内在的合理性。
一个训练集可以看成一个大的系统，正负两类可以看作是两个子系统。非平衡数据集中的正负两类样本数相差悬殊，两子系统所含熵值相差很大。样本量越少的系统，其有序程度就越低，熵值也就越大，每个样本体现出其重要性程度就越高，样本给予分类学习机提供的信息量就越大。如果少数类的样本被错分直接导致第一类错误率上升，损失明显增大，应该尽量避免这种情况的发生。同一类别的样本又可分为边界样本与界内样本两种状态，对支持向量机而言虽然只有边界样本起作用，但两种状态样本反映的系统状态信息是一致的，因此确定了总体样本的惩罚因子，也就确定了边界样本的惩罚因子。
电信客户数据是一个不平衡数据集，正类（流失客户）明显少于负类（非流失客户），即正类能够为学习机提供信息的边界总样本量少于负类，因而每个样本所含有的信息量就越大，如果对两类样本的软化惩罚行为不予以区别的对待，这样的样本（流失客户）错分率上升就会明显的影响到分类机的学习效果。考虑到成本最小化因素，应尽量去避免发生第一类错误的机率，要重视正类样本的划分正确率。信息熵值法正是对这一惩罚行为实现了量化处理，这样大大提高了正类的分类精度，使企业提高了客户挽留的成功率，极大的减少了运营成本。公式如下：

2/4 首页上一页 1 2 3 4 下一页尾页

相关推荐

土木工程应用型人才培养与钢结构毕业设计

新型二维超声振动磨削工程陶瓷试验研究

离心泵进口管道异径管接头形式的探讨

积极防治农村水安全问题,促进社会主义新农村建设

热门期刊

《河北工业大学学报(社会科学版)》
《河北工业大学学报（社会科学版）》（季刊）创刊于1917年，由河北工业大学主办。《河北工业大学学报（社会科学版）》本刊内容以理工类为主，兼顾经济、管理、法律、外语等其他...

《中国公共卫生》
《中国公共卫生》（月刊）创刊于1985年，由中华预防医学会主办。目前已经成为我国公共卫生与预防医学领域具影响的部级、性、综合性大型专业学术期刊之一。《中国公共...

《新作文(校园文学)》
《新作文》版本齐全，意境逐步形成了小学123年级版、小学456年级版、初中版、中考在线、高中版、高考在线、小学作文创新教学、中学作文教学研究、教育教学研究九...

《花木盆景》
《花木盆景》杂志，于1984年经国家新闻出版总署批准正式创刊，CN:42-1014/S，本刊在国内外有广泛的覆盖面，题材新颖，信息量大、时效性强的特点，其中主要栏目有：下月花事、...

《中国美学研究》
《中国美学研究》（半年刊），创刊于2007年，是以研究中国古代美学为主，兼及心理美学、西方美学等著译的学术集刊，由华东师范大学中文系、华东师范大学美学与艺术理论研究...

《广西师范学院学报(哲学社会科学版)》
《广西师范学院学报（哲学社会科学版）》（季刊）创刊于1980年，是由广西师范学院主办的综合性学术期刊，国内外公开发行。创刊以来，能坚持正确的政治方向和舆论导向，坚持确定...