基于信息熵的改进型支持向量机客户流失预测模型应用研究

来源：互联网 qikanw | 方磊马溪骏

【分　类】机械与建筑工程
【关键词】支持向量机、不平衡数据、信息熵、分类预测、客户流失
【来　源】互联网
【收　录】中文学术期刊网

正文：

将此参数确定法的模型记为E-SVM。

4实例验证（如图1）

图1（实例验证流程图）

4.1数据选择及预处理
本文随机选取了某移动通信公司10000条记录，内容包括客户的背景知识（品牌代码、服务类型、入网时间、用户属地、证件类型、证件号码、性别、职业代码、教育程度、薪水、年龄、透支额度、信用等级、状态代码、用户停机属性）与消费行为信息（通话起始时间、结束时间、时长、接入基站、转出基站、主叫号码、被叫号码、费用、短信消费额度）。首先，确定流失的类型，即要找到因主观原因自发流失的客户，剔除那些非主观原因或强迫流失的客户，得到9210条数据，其中未流失客户8694条，流失客户516条，比例约为17：1。其次，对流失与非流失客户进行标记，1代表流失客户（正类），-1代表非流失客户（负类）。再次，非数值型数据的数值化和连续属性离散化，如年龄、薪水等。最后，将这9210条数据分成6等份，取5份作为训练数据，1份作为验证数据。
4.2模型训练
为了便于比较，实验选取了基于不同参数确定方法的E-SVM、C₁-SVM、C₂-SVM以及决策树（C4.5）建立预测模型。考虑到客户数据的非线性，选取径向基核函数

作为SVM的映射函数。参考Libsvm，并利用MATLAB7.1作为实现工具，另外由于数据集较大（多于2000个元组）选择序列最小优化（sequential minimal optimization,SMO）算法来处理SVM。代入数据前先计算参数，依据libsvm的作法和公式（1）取C=1得到C₁-SVM的正负两类参数分别为0.9440、0.0560；据公式（2）得E-SVM的正负两类参数为0.2329、0.0785；C₂-SVM参数确定是一个迭代过程，验证过程中为了避免选样随机性影响参数拟合，从测试集中任意选取了三组数目不一的样本，分别给予不同的初值，得到三对正负类参数：0.2031、0.0871；0.3864、0.0692；0.2208、0.0704。将处理过的训练集共7675条数据，每条数据就是一个24维的列向量，这样得到一个7675*24的超大矩阵，分别代入C4.5、C_x-SVM、E-SVM模型，得到四个预测模型。
4.3结果比较分析
考虑到数据的不平衡性，实验结果采用G均值法，ROC曲线覆盖面积AUC指标，第一类错误率第二类错误率以及传统指标正确率进行衡量。模型的评价指标可以由混淆矩阵^[14]（表1）得到
表1混淆矩阵

流失情况预测未流失预测流失

实际未流失 TN FN
实际流失 FP TP

正确率：acc=(TP+TN)/n (n为样本总量)
灵敏性：sensitivity=TP/n⁺（n⁺为正类的样本个数，本文为流失客户）
特效性：specificity=TN/n^-（n^-为负类的样本个数，本文为非流失客户）
第一类错误率：H₀=1-sensitivity
第二类错误率：H₁=1-specificity
G平均值：

ROC曲线：以特效性为横坐标、灵敏性为纵坐标的直角坐标系，坐标上的点代表不同决策阈值的点
AUC面积：ROC曲线覆盖下的面积，面积越大分类器效果越好
测试数集共有1535个样本，其中正类样本81个，负类样本1454个。将其代入训练好的E-SVM模型，和对比模型C_x-SVM和C4.5得到如下结果（表2）
表2测试结果值

分类机 TP TN FP FN

E-SVM 73 1011 8 443

C₁-SVM    67       1045    14      409
           64       1075    17      319
C₂-SVM    66       1068    15      386

72 1052 9 402
C4.5 54 1208 27 246

将表2数据代入上述指标中得到如下指标值（如表3）
表3指标值

分类机 acc G值 H₀ H₁ AUC面积

E-SVM 0.7062 0.7916 0.0988 0.3047 0.8763

C₁-SVM 0.7244 0.7710   0.1728   0.2813    0.8196
         0.7420 0.7643   0.2098   0.2194    0.7967
C₂-SVM 0.7388 0.7736   0.1852   0.2655    0.8073

0.7322 0.8019 0.1111 0.2765 0.8842
C4.5 0.8221 0.7442 0.3333 0.1692 0.7912

实验结果表明本文的E-SVM 的第一类错误率明显低于C₁-SVM、C4.5两种预测模型，而C₂-SVM的第一类错误率则有明显波动，时高时低，错误率最低时也比E-SVM略高；第二类错误率E-SVM稍高于其它的三种预测模型，这说明正类（流失客户）的识别率有了显著的提高，而负类的识别率有所降低。结合到成本因素，企业的挽留成本会有所提高，但由于流失客户的识别率提高了，可大大减少客户的流失量，为企业保持了利润源，这可以抵消挽留成本提高，因此该模型是符合实际应用背景的。其次，从G值和AUC面积两指标值上看，也可看出E-SVM在处理非平衡数据集时明显好于C

3/4 首页上一页 1 2 3 4 下一页尾页

相关推荐

土木工程应用型人才培养与钢结构毕业设计

新型二维超声振动磨削工程陶瓷试验研究

离心泵进口管道异径管接头形式的探讨

积极防治农村水安全问题,促进社会主义新农村建设

热门期刊

《河北工业大学学报(社会科学版)》
《河北工业大学学报（社会科学版）》（季刊）创刊于1917年，由河北工业大学主办。《河北工业大学学报（社会科学版）》本刊内容以理工类为主，兼顾经济、管理、法律、外语等其他...

《中国公共卫生》
《中国公共卫生》（月刊）创刊于1985年，由中华预防医学会主办。目前已经成为我国公共卫生与预防医学领域具影响的部级、性、综合性大型专业学术期刊之一。《中国公共...

《新作文(校园文学)》
《新作文》版本齐全，意境逐步形成了小学123年级版、小学456年级版、初中版、中考在线、高中版、高考在线、小学作文创新教学、中学作文教学研究、教育教学研究九...

《花木盆景》
《花木盆景》杂志，于1984年经国家新闻出版总署批准正式创刊，CN:42-1014/S，本刊在国内外有广泛的覆盖面，题材新颖，信息量大、时效性强的特点，其中主要栏目有：下月花事、...

《中国美学研究》
《中国美学研究》（半年刊），创刊于2007年，是以研究中国古代美学为主，兼及心理美学、西方美学等著译的学术集刊，由华东师范大学中文系、华东师范大学美学与艺术理论研究...

《广西师范学院学报(哲学社会科学版)》
《广西师范学院学报（哲学社会科学版）》（季刊）创刊于1980年，是由广西师范学院主办的综合性学术期刊，国内外公开发行。创刊以来，能坚持正确的政治方向和舆论导向，坚持确定...