【热点文章】南京中医药大学杨健等:红外光谱结合化学计量学鉴别西红花的产地
引用本文:王巧,熊丰,王游游,等. 红外光谱结合化学计量学鉴别西红花的产地[J]. 化学试剂, 2023, 45(3): 112-119。DOI: 10.13822 /j.cnki.hxsj.2022.0753西红花作为名贵香料,不仅有“香料皇后”的美誉,在膳食、园艺、染色和医药行业也有广泛的应用。现代研究表明,西红花的品质与生产地域密切相关,不同产地西红花的品质和价格存在较大差异。尽管液相色谱、气相-质谱联用等多种化学分析技术用于西红花的产地鉴别,但这些方法存在耗时长、价格高且技术要求严格等现实问题。本研究综合利用近、中红外光谱技术并结合化学计量学方法,分别建立近红外、中红外及近中红外融合光谱模型,优选出判别西红花产地的最佳模型,并采用MWPLS提取光谱特征区间来提升建模速度和分类精度。本研究方法具有便捷快速、无需前处理、低成本等优点,可实现快速、无损且准确的产地识别,具有广阔的市场前景。
将近、中红外光谱数据进行融合,以获得更为丰富和全面的样品信息,提升判别模型的准确率和稳定性;
多种预处理方式(SG平滑、SNV、MSC、D1、D2)结合多种模式识别方法(PLS-DA、DT、SVM)实现了不同产地西红花的准确识别;
采用移动窗口偏最小二乘法(MWPLS)提取光谱特征区间,可以剔除与分类无关以及干扰分类的无用信息变量区间和非成分相关因素的影响,提升建模速度和分类精度。
1.1 主要仪器与试剂
1.2 光谱采集
1.3 光谱预处理与特征波段提取
1.4 化学计量学分析
采用偏最小二乘判别分析(PLS-DA)、决策树(DT)和支持向量机(SVM)等3种方法分别建立分类模型,比较不同预处理方式搭配不同模型对西红花不同产地样品的识别准确率。1.5 数据分析
本研究所用预处理、特征波长提取、主成分分析(Principal component analysis, PCA)及混淆矩阵的可视化基于Matlab 2020a(MathWorks, 美国)运行,分类模型的建立及AUC的计算基于R语言4.0.4实现。2.1 5种产地西红花的平均光谱曲线图
西藏、河南、上海、浙江与伊朗5个不同产地西红花样本近中红光谱曲线如图1所示。
2.2 预处理方法的选择
将5个产地数据集的原始光谱及经SG平滑、MSC、SNV、一阶导数、二阶导数预处理后的数据作为输入变量,计算PLS-DA、DT、SVM三种分类方法的准确率(表1)。
2.3 基于全波段光谱数据的分类模型比较
2.3.1 分类准确率
为了进一步选择合适的分类模型,以不同预处理方法结合PLS-DA、DT及SVM等3种分类模型,并使用分类准确率(包括训练集、测试集)结果来评估,其最优结果见表2。
2.3.2 ROC曲线和混淆矩阵
ROC曲线下面积AUC,用于评价分类问题中模型性能或者泛化能力(表3)。
特征波段的提取采用移动窗口偏最小二乘法(MWPLS),即设置一个窗口数大小为H(本研究设置为20)的光谱区间,在全波段光谱内连续移动。基于分类准确率、ROC曲线下面积AUC及混淆矩阵多重评价指标,近、中红外和融合光谱三类数据集的最优模型均为SG平滑预处理方式-偏最小二乘判别分析法(PLS-DA-SG)。在进行特征波段选择优化建模后,其产地识别最优模型为近红外光谱-SG平滑预处理方式-偏最小二乘判别分析(NIR-PLS-DA-SG)。采用近中红外光谱与化学计量学相结合对不同产地西红花样本进行产地判别,首先采集了5个产地西红花样本的近红外光谱与中红外光谱,然后使用SG平滑、多元散射校正、标准正态变量变换、一阶导数和二阶导数对原始光谱进行预处理,再应用了3种模式识别方法(PLS-DA、DT和SVM)基于近红外光谱、中红外光谱、近中红外融合光谱对西红花的产地进行了识别。还采用MWPLS提取光谱特征区间来提升建模速度和分类精度。结果表明,近红外光谱、中红外光谱与融合光谱的最佳模型组合均为基于SG平滑预处理的PLS-DA,其测试集准确率分别达到94.00%、94.00%和96.00%。另外,MWPLS的单一光谱技术可以精简、优化模型,实现对不同产地西红花的快速准确识别。本工作采用近中红外光谱结合化学计量学的方法,实现了西红花产地的快速判别,为西红花的产地判别提供了一个新颖有效的思路,在药材市场品质检测方面有着广阔的应用前景。