迟焕斌1
(1.大理技师学院,大理671000)
摘要:由于技工院校招生影响因素构成复杂、历史样本数据量较小、信息不确定性等,传统基于大样本的数学建模很难达到要求的精准度。针对技工院校招生的小样本时间序列非线性特征,通过灰色GM和SVM建立预测模型,并进一步用平滑算子、博里叶序列修正。实验表明:修正残差的预测模型拟合效果好、预测精度高,对小样本、贫信息预测提供了一种新的方法。
关键词: 灰色系统模型、 傅里叶修正、小样本预测、SVM
1引言
预测是科学决策的重要判据。技工院校是培养技术技能人才的主阵地。技术技能人才是实现人力.资源强国战略的主力。近年来,随着国家对技工教育的重视.要促进技工教育健康可持续发展,必须结合国家整体发展规划做好技工院校招生规模的科学预测。招生规模预测问题本身是-个非线性的、复杂开发系统。其时间序列的历史数据易受外界噪音影响,呈现非平稳、随机波动等复杂性。技工院校招生历史数据零散、影响因素难以确定性描述等招生规模受到国家招生政策、政治、经济、社会需求等诸多因素的影响,影响因素之间关系错综复杂,具体量化难。表现为非线性过程其数据通常具有高维度、小样本、数据分布蕴含层次结构、高噪声等特征。特别是对小样本招生数据。充分挖掘数据蘊含信息以克服实际预测出现的较大误差或外界噪音带来的精度不高等问题是预测的关键。传统招生规模预测方法有:多元线性回归分析、灰色理论建模等确定性数学模型,时间序列分析方法以及概率统计法等。对于不确定性问题,研究表明灰色系统方法优于传统的统计学方法【1,2】。具体而言,对小样本数据通常采取神经网络、支持向量机和灰度模型:何长虹等验证了BP神经网络用于普通高等学校招生预测的可行性,陈顺立等人用SVM成功实现了研究生招生规模预测【4】,孙梦沽等人用ARIMA模型对招生预测进行研究同。
然而,人工神经网络模型是大样本的经验风险最小化的学习方法,-般需要较充足的样本数据量在小样数据上容易出现过拟合且网络结构难确定,如刘迎春在用ANN对上海中等职业教育规模预测时发现相对于输入向量个数而言,训练样本数对预测准确性的影响更大【3】。SVM(支持向量机)则是用结构风险最小化的学习方法能较好地解决了小样本、非线性、过拟合、维数灾和局极小等问题,且泛化能力强,非常适合于小样本、非线性的招生规模预测。此外,改进模型精度的研究可分为两种:一是基于模型残差数据的信息挖掘,如利用灰度理论研究残差变化规律,利用预测残差修正预测模型从而提高模型精度;二是多模型融合叠加形成新的组合预测模型,优势互补提高预测结论权威性、系统性和预测精准度。受此启发,本文建立灰色GM(1,1)模型、灰色Verhulst模型(GVM)、广义灰色Verhulst模型(GGVM)、基于径向基函数的支持向量机模型(RBF-SVM)、修正的支持向量机模型(D-F-SVM).利用上述5个模型对大理州2000年至2019年共19年的招生数据分析以检验修正的支持向量机模型的效果。
2相关模型
2.1灰色系统预测模型
灰色系统理论的思想是系统的表现尽管灰色模糊。其观测到的数据尽管复杂。但其后都存在某种有序的内在规律。通过某种运算如生产等可以有效的帮助我们寻找到其背后的内在规律。GM(1,1)模型是灰色系统理论的重要内容,是一种对既含有部分确定信息又含有不确定因素的系统进行预测的方法。灰色预测通过生产算子鉴别系统因素之间发展趋势的相异程度,即进行关联分析来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型。从而预测事物未来发展趋势的状况进行科学的定量分析。其用等时距观测到的反应预测对象特征的一系列数量值构造灰色预测模型,预测未来某一时刻的特征量或达到某-特征量的时间。
1.GM(1,1 )模型
定义1:设
为非负序列,其中称为(1-AGO)一次累加生产序列;称为的紧邻均值生成序列,其中
………(1)
定义2:设如定义1所示,建立灰微分方程模型,称
为GM(1,1)模型。其中,a为发展系数,b为灰色作用量。
设为待估参数向量,即,则灰微分方程由最小二乘法估计参数列满足,其中,
…………(2)
对应的白化方程为:
易得其时间相应序列为:
再做累减还原可得对应的预测方程:
2. 灰色Verhulst模型
定义3: 设如定义1所示,称
为灰色Verhulst模型(GVM),其中为灰色Verhulst模型(GVM)白化方程。同上,可用最小二乘法进行参数估计。
3. 广义灰色Verhulst模型
定义4: 设如定义1所示,称
为广义灰色Verhulst模型(GGVM),其中
为灰色Verhulst模型(GVM)白化方程。
据最小二乘法,可以得到广义灰色Verhulst模型参数列
其中,
灰色系统预测模型广泛应用在小样本、贫信息数据分析中。因此,本文采用灰色系统理论作为对照组进行建模。
2.2 SVM预测模型
SVM回归模型在小样本预测中取得不错效果。技工院校招生规模是按年进行统计,是一种等间隔时间序列数据。技工院校招生规模是一种小样本数据,神经网络是基于大样本的预测方法,不适合于小样本数据建模,然而支持向量机可以对非线性问题进行无限逼近,预测性能好,因此本文采用支持向量机对招生规模进行预测。支持向量机是寻找一个从输入空间到输出空问的一个非线性映射函数,该函数将输入数据省映射到高维特征空间F,并在特征空间中进行求解。SVM形式化如:
式中(·)表示内积运算,b表示偏置项。支持向量机通过引人核函数转化成对偶问题,支持向量机表示为:
式中和表示松弛变量。SVM模型常采用的核函数有高斯径向基核函数(radial basis function,简称RBF)、线性核函数和多项式核函数,本研究选用包含正则化参数γ、核参数σ的RBF核函数,这2个优化参数对模型的泛化能力和预测精度影响极大。
2.3 傅里叶修正
技工院校招生数据蕴含一定的周期性,而傅里叶级数是处理周期性的有效利器【6】。傅里叶级数将周期函数按正交集级数展开,可提炼出数据样本序列中隐含的周期信息,起到降噪作用。实际运用中,将任何周期函数或满足条件的可延拓的非周期函数看成周期为无穷大的周期函数,这样就可以展开成为傅里叶级数,并且可用正弦函数和余弦函数构成的无穷级数来表示。用傅里叶级数来挖掘模型残差的周期性规律,具体步骤如下:
定义残差序列
其中,,为观测序列,为模型预测序列。
将傅里叶级数近似展开
其中,符号“[]”表示不超过且最接近的整数。参数可用最小二乘法估计:
式中,
傅里叶残差修正后的预测值为:
3修正的SVM模型(D-F-SVM)
针对小样本、贫信息数据,如何充分挖掘其中规律特征是研究的一个重点。对残差信息的挖掘的研究是一研究热点,受集成思想的启发,本文采用灰色系统理论、SVM对技工院校招生数据进行预测分析,得到残差序列,然后用傅里叶级数和平滑算子对残差进行二重修正。具体流程如下:
图2:二重修正模型流程图
步骤1:对原始数据进行描述性统计分析以获取数据相关统计特征,如是否呈现“S”型、指数增长等变化趋势等以便选择合适的预测模型和工具。
步骤2:训练模型并预测。 采用常用的小样本预测模型SVM和如前所述的三种灰色系统模型进行预测得到残差序列。
步骤3:残差修正。 考虑到历史数据影响权重由远及近递增的规律(既“新息优先”的原则),采用平滑算子对数据进行修正以便进一步提高模型精度和准确性。接着用傅里叶级数和平滑算子对步骤2所得残差序列进行修正从而得到更精准的预测结果。
4实证分析
研究采用2006年至2019年大理州招生数据[ 数据来源:大理州教育事业发展统计公报。
描述性统计图如下所示。总体呈“S”型,具有一定的随机波动性和周期性,考察发现序列具有趋势性、自相关性、异方差性、波动集群性、短时记忆性等特征,因此适合采用灰色系统理论和SVM进行预测分析。
4.1 平滑算子进行数据处理
设数据的原始序列为:
为了计算的方便,也为了计算仿真不产生溢出等异常,原始数据序列进行了归一化处理,将数值无量纲化。具体公式:
归一处理后,得到归一序列: =[0.26791045, 0.65485075, 0.48358209, 0.34440299, 0.41343284, 0.46641791, 0.72388060, 0.75559701, 1.12052239, 1.05858209, 1.26791045, 1.16268657, 1.22686567, 0.94813433] 。构造缓冲算子对原始序列进行修正,可以提高序列的光滑比,弱化原始数据的随机性,能够使预测模型的预测精度得到显著提升【9】。
D为作用于 的算子, 序列经过算子D作用后为:
其中,
按上式计算,得到平滑序列=[8.95450290, 12.06217728, 10.90272356, 9.73644841, 10.34776570, 10.77217345, 12.47193704, 12.65148998, 14.42730160, 14.15640934, 15.03399696, 14.60603991, 14.86998748, 13.64588023]
4.2 预测及修正
首先,用灰度系统模型进行预测。将得到的平滑序列按定义1进行累加生产,再依(1)式进行MEAN近邻均值生产,接着据定义1、定义2和定义3进行最小二乘估计得到模型参数列,从而得到灰度系统模型预测序列。本文选取上述三种常见模型对2006年至2016年大理州技工院校招生数据来建模分析,对比如下图所示:
图2:3种灰色系统模型预测对比
GGVM和GVM呈现指数增长趋势,显然,GM(1,1)模型表现最好,因此下文选取该模型作为与SVM新模型的对比模型。
其次,用基于径向基函数的SVM模型进行预测,选择2006-2017作为训练样本数据,采用网格搜索法训练正则化参数和核参数并保存模型。模型主要参数见表二。
接着,用傅里叶级数展开进行残差修正。获得残差序列,按(9)至(14)得到修正序列。
表2 : 模型及参数
图3:残差图对比图
如上图3所示,残差具有明显的周期性,适合采用傅里叶级数模型进行修正。D-F-SVM模型残差波动幅度最小(围绕0在-250到250之间平稳浮动),波动频率也最小。GM 和RBF-SVM 波动频率基本一致,RBF-SVM 波动幅度比GM要小。
图4:真实值和修正后的预测值比较
4.3 结果分析
为了准确地描述不同模型的预测效果,现在选取一个绝对指标和一个相对指标,即利用均方误差MSE 和平均绝对百分比误差MAPE 对预测模型进行评价。其表达式分别是:
其中,为第i期的实际值,为第i期的预测值。要求预测模型的均方误差和平均绝对百分比误差都越小,则模型的预测效果越好。
修正前预测值、真实值和修正后预测值对比如图4所示。图中灰色线条为真实值,蓝色线条为修正前的预测值、红色线条为修正后的预测值。通过对比不难发现,经过平滑算子和傅里叶修正,模型误差有明显降低最小误差为0,最大误差为2016年的240,变化趋势愈加准确,修正效果明显提升。由表3可见,二重修正模型D-F-SVM显著地降低了平均百分比误差和均分误差,使得预测效果提升了近一个数量级。
5结论
将傅里叶级数和平滑算子引入到RBF-SVM 预测模型中,建立了D-F-SVM二重修正的小样本预测的新方法。然后用大理州2006-2019年招生数据进行实证研究,结果表明二重修正能有效提升预测精度,验证了本文提出的D-F-SVM 二重修正预测模型的有效性,为小样本数据分析提供了一种高精度的预测方法。但由于招生影响因素的复杂性,今后研究中应进一步探索预测方法,如融合迁移学习、SVM模型训练优化等。
参考文献
【1】 DENG Julong.Introduction to grey system theory[J].The Journal of Grey System,1 989(1):1—24.
【2】 邓聚龙.灰色系统基本方法(第二版)[M].武汉:华中科技大学出版社,2005.
【3】何长虹,申世飞,黄全义.普通高等学校招生规模的预测方法[J].清华大学学报(自然科学版),2012,52(01):87-91
【4】陈顺立.研究生招生规模建模与预测[J].计算机仿真,2012,29(02):396-399.
【5】孙梦洁,陈宝峰,温春卉,任金政.基于ARIMA模型的研究生招生规模建模与预测[J].统计与决策,2010(12):60-62.
【6】柳焕章, 贾晓辉. 自适应突变量继电器及其傅里叶算法%Adaptive Variation Relay and Its Fourier Algorithm[J]. 电力系统自动化, 2011, 035(020):74-77.
【7】周伟杰,党耀国.灰色广义Verhulst模型的构建及其应用[J].系统工程理论与实践,2020,40(01):230-239.
【8】张和平, 陈齐海. Research on the Prediction of Network Public Opinion Based on Grey Markov Model%基于灰色马尔可夫模型的网络舆情预测研究[J]. 情报科学, 036(1):75-79.
【9】刘迎春.中等职业教育规模的神经网络预测[J].系统仿真技术,2005(03):158-163.]来建模分析,如下表1所示,其中2006-2017年作为样本,预测2018,2019年招生人数。