|  客服中心  |  合作联系
搜刊网
论文下载
您当前位置
首页 > 论文下载 > 机械与建筑工程 > 基于信息熵的改进型支持向量机客户流失预测模型应用研究
基于信息熵的改进型支持向量机客户流失预测模型应用研究
来源:互联网 qikanw | 方磊 马溪骏
【分  类】 机械与建筑工程
【关 键 词】 支持向量机、不平衡数据、信息熵、分类预测、客户流失
【来  源】 互联网
【收  录】 中文学术期刊网
正文:


将此参数确定法的模型记为E-SVM。
4实例验证(如图1)
 
图1(实例验证流程图)
 
4.1数据选择及预处理
本文随机选取了某移动通信公司10000条记录,内容包括客户的背景知识(品牌代码、服务类型、入网时间、用户属地、证件类型、证件号码、性别、职业代码、教育程度、薪水、年龄、透支额度、信用等级、状态代码、用户停机属性)与消费行为信息(通话起始时间、结束时间、时长、接入基站、转出基站、主叫号码、被叫号码、费用、短信消费额度)。首先,确定流失的类型,即要找到因主观原因自发流失的客户,剔除那些非主观原因或强迫流失的客户,得到9210条数据,其中未流失客户8694条,流失客户516条,比例约为17:1。其次,对流失与非流失客户进行标记,1代表流失客户(正类),-1代表非流失客户(负类)。再次,非数值型数据的数值化和连续属性离散化,如年龄、薪水等。最后,将这9210条数据分成6等份,取5份作为训练数据,1份作为验证数据。
4.2模型训练
为了便于比较,实验选取了基于不同参数确定方法的E-SVM、C1-SVM、C2-SVM以及决策树(C4.5)建立预测模型。考虑到客户数据的非线性,选取径向基核函数作为SVM的映射函数。参考Libsvm,并利用MATLAB7.1作为实现工具,另外由于数据集较大(多于2000个元组)选择序列最小优化(sequential minimal optimization,SMO)算法来处理SVM。代入数据前先计算参数,依据libsvm的作法和公式(1)取C=1得到C1-SVM的正负两类参数分别为0.9440、0.0560;据公式(2)得E-SVM的正负两类参数为0.2329、0.0785;C2-SVM参数确定是一个迭代过程,验证过程中为了避免选样随机性影响参数拟合,从测试集中任意选取了三组数目不一的样本,分别给予不同的初值,得到三对正负类参数:0.2031、0.0871;0.3864、0.0692;0.2208、0.0704。将处理过的训练集共7675条数据,每条数据就是一个24维的列向量,这样得到一个7675*24的超大矩阵,分别代入C4.5、Cx-SVM、E-SVM模型,得到四个预测模型。
4.3结果比较分析
考虑到数据的不平衡性,实验结果采用G均值法,ROC曲线覆盖面积AUC指标,第一类错误率第二类错误率以及传统指标正确率进行衡量。模型的评价指标可以由混淆矩阵[14](表1)得到
表1混淆矩阵
流失情况     预测未流失     预测流失
实际未流失     TN            FN
实际流失       FP             TP
 
正确率:acc=(TP+TN)/n   (n为样本总量)
灵敏性:sensitivity=TP/n+(n+为正类的样本个数,本文为流失客户)
特效性:specificity=TN/n-(n-为负类的样本个数,本文为非流失客户)
第一类错误率:H0=1-sensitivity
第二类错误率:H1=1-specificity
G平均值: 
ROC曲线:以特效性为横坐标、灵敏性为纵坐标的直角坐标系,坐标上的点代表不同决策阈值的点
AUC面积:ROC曲线覆盖下的面积,面积越大分类器效果越好
测试数集共有1535个样本,其中正类样本81个,负类样本1454个。将其代入训练好的E-SVM模型,和对比模型Cx-SVM和C4.5得到如下结果(表2)
表2测试结果值
分类机     TP      TN     FP       FN
E-SVM     73      1011     8       443
C1-SVM    67       1045    14      409
           64       1075    17      319
C2-SVM    66       1068    15      386
72       1052     9      402
C4.5       54       1208    27      246
 
将表2数据代入上述指标中得到如下指标值(如表3)
表3指标值
分类机    acc     G值     H0     H1     AUC面积
E-SVM   0.7062  0.7916   0.0988   0.3047    0.8763  
C1-SVM  0.7244  0.7710   0.1728   0.2813    0.8196
         0.7420  0.7643   0.2098   0.2194    0.7967
C2-SVM  0.7388  0.7736   0.1852   0.2655    0.8073
0.7322  0.8019   0.1111   0.2765    0.8842
C4.5    0.8221   0.7442   0.3333   0.1692    0.7912
 
实验结果表明本文的E-SVM 的第一类错误率明显低于C1-SVM、C4.5两种预测模型,而C2-SVM的第一类错误率则有明显波动,时高时低,错误率最低时也比E-SVM略高;第二类错误率E-SVM稍高于其它的三种预测模型,这说明正类(流失客户)的识别率有了显著的提高,而负类的识别率有所降低。结合到成本因素,企业的挽留成本会有所提高,但由于流失客户的识别率提高了,可大大减少客户的流失量,为企业保持了利润源,这可以抵消挽留成本提高,因此该模型是符合实际应用背景的。其次,从G值和AUC面积两指标值上看,也可看出E-SVM在处理非平衡数据集时明显好于C
相关推荐
热门期刊
河北工业大学学报(社会科学版)《河北工业大学学报(社会科学版)》
《河北工业大学学报(社会科学版)》(季刊)创刊于1917年,由河北工业大学主办。 《河北工业大学学报(社会科学版)》本刊内容以理工类为主,兼顾经济、管理、法律、外语等其他...
中国公共卫生《中国公共卫生》
《中国公共卫生》(月刊)创刊于1985年,由中华预防医学会主办。目前已经成为我国公共卫生与预防医学领域具影响的部级、性、综合性大型专业学术期刊之一。 《中国公共...
新作文(校园文学)《新作文(校园文学)》
《新作文》版本齐全,意境逐步形成了小学123年级版、小学456年级版、初中版、中考在线、高中版、高考在线、小学作文创新教学、中学作文教学研究、教育教学研究九...
花木盆景《花木盆景》
《花木盆景》杂志,于1984年经国家新闻出版总署批准正式创刊,CN:42-1014/S,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:下月花事、...
中国美学研究《中国美学研究》
《中国美学研究》(半年刊),创刊于2007年,是以研究中国古代美学为主,兼及心理美学、西方美学等著译的学术集刊,由华东师范大学中文系、华东师范大学美学与艺术理论研究...
广西师范学院学报(哲学社会科学版)《广西师范学院学报(哲学社会科学版)》
《广西师范学院学报(哲学社会科学版)》(季刊)创刊于1980年,是由广西师范学院主办的综合性学术期刊,国内外公开发行。创刊以来,能坚持正确的政治方向和舆论导向,坚持确定...
友情链接
中教杯 国家新闻出版总署 中国知网 万方数据 维普网 中国科学院 中国国家图书馆 央视英文版 中国留学网 中青网 中国国家人才网 中国经济网 中国日报网 中国新闻网 中国学术期刊网
关于我们
平台简介
诚聘英才
企业文化
竞争优势
版权信息
服务条款
客服承诺
常见问题
版权声明
合作加盟
期刊加盟
广告服务
联系我们
网站导航
期刊大全
论文下载
课题申报
学术会议
编辑QQ
编辑联络
2007-2023
中文学术期刊检索机构
bianjibu777@qq.com
联系我们

版权所有©2007- 2023 中国学术期刊网(qikanw.com) All Rights Reserved 京ICP备2021008252号
本站是学术论文网络平台,若期刊网有侵犯您的版权,请及时与期刊网客服取得联系,联系信箱: bianjibu777@qq.com    
中国学术期刊网