摘 要近红外光谱分析技术在物质成分分析中的得到广泛的应用,在自主研发的滤光片型近红外仪器中应用基于波长优选的BP神经网络模型的方法。本文是在制备的26个样品集中,先采用多元线性回归算法建立模型获取最优波长,然后将最优波长作为BP神经网络模型的输入建立模型,所得模型的拟合残差为8.768991×10-6,建模样品集相关系数和检验样品集相关系数分别为0.994和0.996。试验结果表明,基于波长优选的BP神经网络模型方法能够更快获得最优解,减少建模所用变量,明显的提高定量分析模型的稳健性,增强实际检测能力。
关键词 波长优选 多元线性回归 BP神经网络
1 引言
近红外(NIR)光谱分析技术在物质成分分析中以快速、简便、无损等特点得到越来越广泛的应用[1-2]。它是一种间接测量技术,需要借助化学计量学方法将样品光谱和其质量参数建立数学模型来对未知样品进行检验。仪器预测模型的稳健与否直接影响到分析结果的精度[3]。由于样品的状态、测量条件、成分的组成等因素对光谱的影响[4],样品的吸光度与成分含量之间大多数属于非线性的关系,因而常规的线性处理方法就不能完全适用于近红外光谱分析中。而作为三大非线性处理方法之一的神经网络模型,随着它的成熟和相关理论的完善,其在分类、非线性模型方面已经被证明是一种有效的方法[5-8]。
本文通过对不同蛋白质含量的近红外光谱分析研究,将波长优选和BP神经网络相结合,旨在寻找一种检测物质成分含量的快速有效的方法。
2 试验材料和方法 2.1 试验仪器采用自主研发的JD-NIR-01型近红外检测仪进行近红外光谱测定,扫描样品重量为50g。光路体系主要由卤钨灯、滤光片和斩光片等组成。卤钨灯光通过近红外窄带干涉滤光片形成单色后,垂直照射到样品上被吸收漫反射后由检测器接收,光谱信号通过数据采集卡传入计算机作进一步处理。 2.2 试验材料所建立的样品集是根据玉米中蛋白质含量范围,样品由淀粉和蛋白粉按比例混合均匀并按梯度配制而得,蛋白质含量范围是10-16%。总样品数为26个,其中20个样品作为建模样品集,其余样品作为检验样品集。 2.3 化学值测定近红外分析是以参比分析方法为基础的,其分析的精确度(也叫重现性)与准确度依赖于参比分析法的精确度与准确度,配制成的样品并不能直接用于模型的建立。由于配制过程中难免有误差,因此还需要经过化学方法的测定。选用凯氏定氮法测定样品中蛋白质的含量。 3 建模的结果与讨论 3.1 样品集光谱已知一组样品(26个样品)的蛋白含量,在本仪器上先扫描空白,然后装样,扫描样品得到的吸光谱如图1所示。
图1 样品集吸收光谱
Fig1 Absorption spectrumof samples
从样品集吸收光谱可以看出,每个样品的吸收光谱曲线形态相似,具有良好的规律性。 3.2 波长优选将各个波长下的吸光度值进行不同的组合排列,对建模样品集建立不同的多元线性回归模型,挑选在相同元数的多元线性回归模型中相关系数最大的组合,将检验样品集的各样品吸光度值输入该模型中,得到该模型的相关系数,最终挑选检验相关系数最大的预测模型中对应的波长为最优波长,并将其作为BP神经网络模型的输入。多元线性回归模型的结果如下表所示。
表1 多元线性回归模型的总结表
Table 1 multivariate linear regression model summarizes 波长数目 建模样品集 检验样品集 平均相关系数 最大相
关系数 相对误差(%) 相关
系数 10.60 11.40 12.80 13.20 14.60 15.20 2 0.350 0.606 29.23 2.54 0.54 2.94 14.18 15.55 0.087 3 0.510 0.824 6.34 4.09 2.59 2.10 19.41 9.29 0.616 4 0.626 0.847 5.89 7.30 1.11 1.25 19.40 9.53 0.707 5 0.713 0.873 14.98 13.54 8.90 3.27 21.29 2.09 0.593 6 0.780 0.877 14.36 12.36 9.47 3.56 18.66 3.77 0.650 7 0.841 0.886 14.23 9.74 6.87 1.50 17.24 7.45 0.665 8 0.887 0.887 13.54 9.19 6.80 0.69 16.68 8.23 0.683 由上表可以看出,在建模样品集中随着参加建立模型的波长的增加,建立的多元线性回归方程的最大相关系数和平均相关系数都随着增大;在对检验样品集的预测中发现四元线性回归模型预测效果最好,是最经济的,最优波长对应的滤光片分别为1、3、4、8号滤光片。另外,在检验样品集的预测中可以发现含量为14.60的点为奇异点,应将其删除。
由上面分析可知,在该仪器中使用多元线性回归算法对蛋白质含量进行检测,预测效果不好,线性度差,应进一步使用非线性算法建立定量分析模型。 3.3 BP神经网络建模使用神经网络建模方法对X1、X3、X4和X8最优波长组合进行建模。在训练网络之前将输入样本归一化,然后建立BP神经网络模型。
1) 建立BP神经网络模型
在DPS软件中设定各个参数,确定隐含网络层数为2,输入层节点数为4,根据经验值和系统训练结果的比较确定第一隐含节点数为16,第二隐含节点数为10;由于训练速率越大,权重变化越快,收敛越快,但是其值过大又会引起系统震荡,所以根据经验值确定最小训练速率为0.1,动态参数为0.6,sigmoid函数的参数为0.9,允许误差为0.000 000 1,迭代次数为20 000次,数据转换为标准化变换。
2) 训练神经网络
将建模样品集中的20个样本作为训练样本训练神经网络,由系统不断地自动调节网络权值和阈值,直到达到允许误差或者迭代次数。图2为在建立BP神经网络模型训练过程中误差的衰减曲线。
图2 BP神经网络训练过程中误差的衰减曲线
Fig.2 error attenuation curve in BP neural network training process
建模样品集经BP神经网络模型预测的结果如图3所示,预测值与化学值的相关系数R为0.994,相对误差平均值为1.27%。 图3 在建模样品集中的预测值与化学值关系
Fig.3 relationship of the prediction and chemistry values in Modeling sample collection 图4 在检验样品集中预测值与化学值关系
Fig.4relationship of the prediction and chemistry values in Test sample collection 3) 检验
BP神经网络模型对检验样品集进行检验,其结果如图4所示。
检验集样品经BP神经网络模型预测的预测值与化学值的相关系数R为0.996,平均相对误差值为1.97%。 4 结论综上,通过在自主研发的滤光片型近红外检测仪上对蛋白质含量的标定过程中,可以发现NIR分析是一种非线性处理方法。采用多元线性回归方法确定最优波长后,再利用最优波长建立BP神经网络模型的这种方法,能够明显的提高定量分析模型的稳健性,增强实际检测能力,并减少建模变量。另外本文提出的波长优选法与BP神经网络算法的标定方法虽然是以自制样品作为训练和检验样本,但也同样适用于其它粉状样品。