正文:1-SVM、C4.5,而C
2-SVM的结果出现明显波动,精度取决于样本的选取,具有很强的经验性。最后,从精度指标acc上可以发现E-SVM的acc值小于C
x-SVM、C4.5,这主要是由于数据的不平衡性导致的,也就是说在非平衡数据集中,利用acc指标去衡量一个分类机的优劣程度是没有意义的。
5结束语如何更有效的识别客户流失这一类非平衡数据的少数类,是目前的分类学习的热点。支持向量机算法是一种有效的学习算法,在应用于非平衡数据集时如何有效的确定惩罚因子数极为关键。直接样本比例计算法(C
1-SVM)及实验法(C
2-SVM)是改进型SVM参数确定的两种常用方法,两种方法有着本身不可克服的缺点。本文利用信息熵值来确定两类样本的惩罚因子数,并利用犯两类错误率以及AUC面积指标来衡量模型。验证结果表明,本方法效果较直接样本比例计算法显著提高;实验法经验性强,结果不稳定,时间和实验复杂度也较高。因此,本文提出的参数确定方法是二者优点的综合,精度高、操作简单易行,适合用于处理诸如电信客户此类不平衡、高维度、非线性数据的模式识别问题。如病人诊断、网络黑客攻击检测、信用卡客户欺诈行为等。
参考文献[1]王良元著;通信企业管理[M]北京:北京邮电大学出版社,2005:312-340
[2] Cox, D. R. Regression models and life-tables (with discussion). Journal of the Royal Statistical Society, Series B, 1972, 74: 187~220
[3]Mozer M C , Wolniewicz R , Grimes D B , et al . Churn reduction in the wireless industry[J] . Advances in Neural Information Processing Systems , 2000(12) , 935 - 941.
[4] Lemmens A , Croux C. Bagging and Boosting Classification Trees to predict churn[R] , DTEW Research Report 0361 , 2003 , 40.
[5] 姚敏 ,沈斌 ,李明芳. 基于多准则神经网络与分
类回归树的电信行业异动客户识别系统 [J].
系统工程理论与实践 , 2004, (5) : 78- 83 .
[6] 贾琳 ,李明. 基于数据挖掘的电信客户流失模型的建立与实现 [J]. 计算机工程与应 用 ,2004, (4) : 185- 187 .
[7]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):34-38.
[8] Masand B , Datta P , Mani D R , et al . CHAMP: A Prototype for Automated Celluar Churn Prediction[J].Data Mining and Knowledge Discovery, 1999,(3) : 219- 225 .
[9] REI CHHELD F F, SASSER W E. Zero defections: quality comes to service[J]. Harvard Business Review, 1990, 68 (5) : 1052 111.
[10]叶志飞,文益民,吕宝粮;不平衡分类问题研究综述[J].智能系统学报,2009,4(2):149-151.
[11] VAPNIK V,CORTES C. Support vector net works [J].Machine Learning, 1995, 20 (3): 2732297.
[12]邓乃扬,田英杰著;数据挖掘中的新方法:支持向量机[M]北京:科学出版社,2004:125-152.
[13]Shannon C E.A mathematical theory of communication,BellSyst.Tech.J.,1948,27(1,2):623-656.
[14]韩家炜,堪博著;范明,孟小峰译. 数据挖掘.概念与技术[M].北京:机械工业出版社,2008:359-362
4/4 首页 上一页 2 3 4