专利 一种用于乳腺癌筛查的电子鼻及其检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211012670.6 (22)申请日 2022.08.23 (66)本国优先权数据 20221097070 5.0 2022.08.13 CN (71)申请人合肥工业大学地址 230009 安徽省合肥市包河区屯溪路 193号申请人滁州怡然传感技术研究院有限公司　安徽六维传感科技有限公司 (72)发明人胡雪锋　李思宇　章伟　刘泽浩　包楚阳　刘嘉明　王海燕　俞佳丽　宁璐　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师殷星(51)Int.Cl. G01N 33/497(2006.01) G01D 21/02(2006.01) G06K 9/00(2022.01) G06K 9/62(2022.01) G06N 20/20(2019.01) G06N 5/00(2006.01) (54)发明名称一种用于乳腺癌筛查的电子鼻及其检测方法 (57)摘要本发明涉及一种用于乳腺癌筛查的电子鼻及其检测方法。电子鼻包含检测部件、电路和上位机，检测部件采集乳腺癌患者与健康人群呼吸气体的原始响应信号，并将原始响应信号通过电路传输给上位机分析；上位机中设有数据预处理、 PCA降维、留一法交叉验证与随机森林分类算法等程序，实现对乳腺癌患者与健康人群的数据区分。本发明中的电子鼻系统能在早期比较乳腺癌患者与健康人呼出的挥发性有机化合物，并对其完成预测分类。权利要求书3页说明书7页附图4页 CN 115541863 A 2022.12.30 CN 115541863 A 1.一种用于乳腺癌筛查的电子鼻，其特征在于，包含检测部件、电路和上位机，所述检测部件包含了通过软管依次串联的检测腔、微型泵和流量计，所述流量计反馈控制微型泵，外界气体进入检测腔后，依次通过微型泵和流量计，同时流量计反馈控制微型泵，保证电子鼻的气体流速恒定；所述检测腔内设有12个气体传感器、 1个温度传感器和1个湿度传感器，用于采集呼吸气体的原始响应信号；所述检测部件采集不同人群呼吸气体的原始响应信号，所述电路将检测腔采集到的原始响应信号传输给上位机分析，所述上位机接受并显示不同传感器的响应信号，且能够判断呼气样本的标准与否，完成对乳腺癌或者乳腺良性结节患者与健康人的数据区分。 2.根据权利要求1所述的用于乳腺癌筛查的电子鼻的检测方法，其特征在于，包括以下步骤： S1：利用传感器阵列获得乳腺癌患者与健康人的原始响应数据集X； S2：将原始响应数据集X进行相关计算处理得到样本集Xs； S3：对样本集Xs进行标准化处理得到Xm； S4：对标准化处理后的样本集Xm进行特征降维生成新的特征样本集Xm_pca； S5：将新的特征样本集Xm_pca按照留一法进行交叉验证，并随机划分为训练样本集 Xtrain_pca及测试样本集Xtest_pca； S6：利用随机森林算法对训练样本集Xtrain_pca进行训练，使用网格搜索进行超参数调优提升模型准确度； S7：绘制ROC曲线，通过测量ROC曲线的AUC来确定模型性能，并根据约登指数计算训练样本集的ROC曲线截断值，然后对测试样本集Xtest_pca中乳腺癌患者与健康人进行分类识别，验证模型的预测性能。 3.根据权利要求2中的用于乳腺癌筛查的电子鼻的检测方法，其特征在于，步骤S2具体为：采用公式(1)对原始数据进行基线处理，假设数据共有NF个样本，每个样本有NK个传感器，每个传感器检测的维数为NT，稳定的基线阶段维数为NG(NG＜NT)，第F(F＝1， 2， 3， ...， NF) 个样本第K(K＝1， 2， 3， ...， NK)个传感器在时间T(T＝1， 2， 3， ...， NT)的基线处理后的传感器响为：其中， R(F.K.T)与R(F.K.t)为第F个样本的第K个传感器在时间T和时间t的实际响应。 4.根据权利要求2中的用于乳腺癌筛查的电子鼻的检测方法，其特征在于，步骤S3的具体步骤为： S31：计算样本集Xs中特征的均值 S32：计算样本集Xs中特征的标准差σ； S33：采用公式(2)对样本集Xs进行标准化处理：其中， Xm为样本集Xs标准化处理后的数据。 5.根据权利要求2中的用于乳腺癌筛查的电子鼻的检测方法，其特征在于，步骤S4中降维算法采用主成分分析法PCA进行降维，具体步骤如下：权　利　要　求　书 1/3 页 2 CN 115541863 A 2S41：将步骤3中标准化后的数据Xm组成对应的矩阵向量，并求其协方差矩阵； S42：计算协方差矩阵C 的特征值，按大小顺序排列得λ1≥λ2≥…≥λm，对应特征向量为 β1， β2，…βm，所求特征向量按顺序分别称为第1， 2， …m主成分； S43：采用公式(3)计算各主成分的贡献率Ej：其中， λj为第j个特征值，为所有特征值的累加和； S44：取前p个(p≤m)主成分，使得它们的累计贡献率大于95％，采用公式(4)计算标准后的测量值在前p个主成分方向上的得分Z： Z＝( β1， β2，…βP)Xm (4) 取前2个主成分累计方差贡献率大于95％作为新的特征样本集。 6.根据权利要求2中的用于乳腺癌筛查的电子鼻的检测方法，其特征在于，步骤S5中采用留一法进行交叉验证，具体步骤如下： S51：将特征样本集Xm_pca分为k个独立的子集， k 为特征样本集数据的个数； S52：将一个子集X1作为测试集，剩下的k ‑1个子集作为训练集，完成一次训练； S53：选择下一个子集X2作为测试集，剩下的k ‑1个子集作为训练集，完成第二次训练； S54：对每个子集都进行一遍留一法的分类，训练重复k次； S55：对k次训练中分别得到的识别率进行求和平均，得到留一法交叉验证的结果。 7.根据权利要求2中的用于乳腺癌筛查的电子鼻的检测方法，其特征在于，步骤S6的具体步骤如下： S61：根据随机森林算法理论思想，基于自主抽样法(Bootstrap)从训练集M中随机获取 N个独立的训练子集M＝{M1， M2，， M3，…， MN}，在此抽样过程中，独立抽样k次，每个子样本未被抽取的概率P为公式(5)： P＝(1‑1/N)N (5) S62：根据不同的子集构造生成一对一映射的N棵决策树T＝{T1， T2， T3…， TN}，而CART决策树在选择节点时按照系数作为衡量节点选择的依据，系数的计算为公式(6)：式中M为独立训练的子集； P为当前子集样本空间内各个取值的概率； S63：在选取节点时， Gini系数越小的属性越适合做决策树的节点，从树的根部向下依次递增，在构建树时，设置每个节点的阈值以及满足停止分裂的要求，并且通在模型训练过程中使用网格搜索进行超参数调优，得到各超参数的最优值，为分类模型提供最优参数组合，使分类模型的预测性能最大化。 8.根据权利要求2中的用于乳腺癌筛查的电子鼻的检测方法，其特征在于，步骤S7的具体步骤如下： S71：根据训练样本集被预测为正类(P)的概率score以及真正标签(P/N)，将score从高到低依次作为阈值，绘制ROC曲线； S72： ROC曲线下面积即为AUC，属于0 ‑1之间， AUC作为数值可以直观地评价分类器的好坏； S73：找出ROC曲线横坐标与纵坐标差异最大的点所对应的阈值，约登指数计算公式为：权　利　要　求　书 2/3 页 3 CN 115541863 A 3

专利 一种用于乳腺癌筛查的电子鼻及其检测方法

专利一种用于乳腺癌筛查的电子鼻及其检测方法