正文:
将此参数确定法的模型记为E-SVM。
4实例验证(如图1) 图1(实例验证流程图) 4.1数据选择及预处理
本文随机选取了某移动通信公司10000条记录,内容包括客户的背景知识(品牌代码、服务类型、入网时间、用户属地、证件类型、证件号码、性别、职业代码、教育程度、薪水、年龄、透支额度、信用等级、状态代码、用户停机属性)与消费行为信息(通话起始时间、结束时间、时长、接入基站、转出基站、主叫号码、被叫号码、费用、短信消费额度)。首先,确定流失的类型,即要找到因主观原因自发流失的客户,剔除那些非主观原因或强迫流失的客户,得到9210条数据,其中未流失客户8694条,流失客户516条,比例约为17:1。其次,对流失与非流失客户进行标记,1代表流失客户(正类),-1代表非流失客户(负类)。再次,非数值型数据的数值化和连续属性离散化,如年龄、薪水等。最后,将这9210条数据分成6等份,取5份作为训练数据,1份作为验证数据。
4.2模型训练
为了便于比较,实验选取了基于不同参数确定方法的E-SVM、C
1-SVM、C
2-SVM以及决策树(C4.5)建立预测模型。考虑到客户数据的非线性,选取径向基核函数

作为SVM的映射函数。参考Libsvm,并利用MATLAB7.1作为实现工具,另外由于数据集较大(多于2000个元组)选择序列最小优化(sequential minimal optimization,SMO)算法来处理SVM。代入数据前先计算参数,依据libsvm的作法和公式(1)取C=1得到C
1-SVM的正负两类参数分别为0.9440、0.0560;据公式(2)得E-SVM的正负两类参数为0.2329、0.0785;C
2-SVM参数确定是一个迭代过程,验证过程中为了避免选样随机性影响参数拟合,从测试集中任意选取了三组数目不一的样本,分别给予不同的初值,得到三对正负类参数:0.2031、0.0871;0.3864、0.0692;0.2208、0.0704。将处理过的训练集共7675条数据,每条数据就是一个24维的列向量,这样得到一个7675*24的超大矩阵,分别代入C4.5、C
x-SVM、E-SVM模型,得到四个预测模型。
4.3结果比较分析
考虑到数据的不平衡性,实验结果采用G均值法,ROC曲线覆盖面积AUC指标,第一类错误率第二类错误率以及传统指标正确率进行衡量。模型的评价指标可以由混淆矩阵
[14](表1)得到
表1混淆矩阵
流失情况 预测未流失 预测流失 |
实际未流失 TN FN 实际流失 FP TP |
正确率:acc=(TP+TN)/n (n为样本总量)
灵敏性:sensitivity=TP/n
+(n
+为正类的样本个数,本文为流失客户)
特效性:specificity=TN/n
-(n
-为负类的样本个数,本文为非流失客户)
第一类错误率:H
0=1-sensitivity
第二类错误率:H
1=1-specificity
G平均值:
ROC曲线:以特效性为横坐标、灵敏性为纵坐标的直角坐标系,坐标上的点代表不同决策阈值的点
AUC面积:ROC曲线覆盖下的面积,面积越大分类器效果越好
测试数集共有1535个样本,其中正类样本81个,负类样本1454个。将其代入训练好的E-SVM模型,和对比模型C
x-SVM和C4.5得到如下结果(表2)
表2测试结果值
分类机 TP TN FP FN |
E-SVM 73 1011 8 443
C1-SVM 67 1045 14 409 64 1075 17 319 C2-SVM 66 1068 15 386
72 1052 9 402 C4.5 54 1208 27 246 |
将表2数据代入上述指标中得到如下指标值(如表3)
表3指标值
分类机 acc G值 H0 H1 AUC面积 |
E-SVM 0.7062 0.7916 0.0988 0.3047 0.8763
C1-SVM 0.7244 0.7710 0.1728 0.2813 0.8196 0.7420 0.7643 0.2098 0.2194 0.7967 C2-SVM 0.7388 0.7736 0.1852 0.2655 0.8073
0.7322 0.8019 0.1111 0.2765 0.8842 C4.5 0.8221 0.7442 0.3333 0.1692 0.7912 |
实验结果表明本文的E-SVM 的第一类错误率明显低于C
1-SVM、C4.5两种预测模型,而C
2-SVM的第一类错误率则有明显波动,时高时低,错误率最低时也比E-SVM略高;第二类错误率E-SVM稍高于其它的三种预测模型,这说明正类(流失客户)的识别率有了显著的提高,而负类的识别率有所降低。结合到成本因素,企业的挽留成本会有所提高,但由于流失客户的识别率提高了,可大大减少客户的流失量,为企业保持了利润源,这可以抵消挽留成本提高,因此该模型是符合实际应用背景的。其次,从G值和AUC面积两指标值上看,也可看出E-SVM在处理非平衡数据集时明显好于C
3/4 首页 上一页 1 2 3 4 下一页 尾页