专利一种基于特征金字塔的圣女果检测识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221048274 4.6 (22)申请日 2022.05.05 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人王涌　潘宏　赵远方　周王益　 (74)专利代理机构杭州天正专利事务所有限公司 33201 专利代理师孙家丰 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/762(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于特征金字塔的圣女果检测识别方法 (57)摘要一种基于特征金字塔的圣女果检测识别方法，包括： 1.构建主干网络ResNet 50，利用残差结构较强的特征提取能力获取图像的细致特征； 2. 设计混合膨胀卷积模块，利用膨胀卷积增大特征感受野的特点获取更多全局特征； 3.构建特征金字塔，将不同层次特征中的差异性信息进行融合，消除不同特征之间相关性而产生的冗余信息； 4.构建检测子网络，通过全连接结构输出真实目标概率及空间位置偏移量； 5.使用K ‑means 聚类方法，得到最为适合的检测框尺寸； 6.引入 Focal Loss减少正负样本不平衡问题，并结合 CIoU Loss有效提升边界框回归精度； 7.采用迁移学习，加载主干网络预训练权重，加速模型收敛速度，优化模型训练效果； 8.用训练好的模型对圣女果进行检测。权利要求书3页说明书6页附图1页 CN 114821106 A 2022.07.29 CN 114821106 A 1.一种基于特征金字塔的圣女果检测识别方法，包括如下步骤：步骤1、构建主干网络，以核大小为1 ×1卷积、核大小为3 ×3卷积以及核大小为1 ×1卷积组成残差块结构为基础，利用残差结构较强的特征提取能力来获取不同尺度的圣女果特征图；主干网络分为5层，第一层C1由核大小为7 ×7卷积层、 BN归一化层和Mish激活函数构成， C2至C5则分别由3、 4、 6、 3个上述残差块组成；步骤2、构建混合膨胀卷积组件，由主干网络得到的C3、 C4、 C5特征图经过核大小为1 ×1 卷积操作保留原有特征的同时统一通道数为256，此外C3、 C4会分别进行核大小3 ×1、 1×3 卷积操作来捕捉图像中横向和纵向的特征，以此来增强模型的推理能力，改善目标遮挡问题；将上述C3、 C4、 C5处理后得到统一大小的特征图进行特征融合，并通过由三个膨胀率大小不同的3 ×3卷积层串联构成的混合膨胀卷积模块，以此增大特征感受野；为避免膨胀卷积出现网格效应，保证了信息的完整性，该组膨胀率的设计满足下式： Mi＝max[Mi+1‑2ri,Mi+1‑2(Mi+1‑ri),ri] (1) 其中，膨胀率依次为[r1,...,ri,...,rn]， Mi定义为第i层两个非零值之间的最大距离， i ∈[1,n]且Mn＝rn，式(1)的目地是让M2≤K，才能保证没有网格效应；步骤3、构建特征金字塔，特征层C3、 C4、 C5输入至混合膨胀卷积组件中得到输出特征f 为基础；输出特征f经两次核大小为1 ×1卷积操作得到特征金字塔最顶层P7；输出特征f经一次核大小为3 ×3卷积操作得到特征金字塔P6； C5经核大小为1 ×1卷积操作得到的C5 ’与输出特征f统一通道数后融合得到特征f1， f1再经核大小为3 ×3卷积操作得到特征金字塔 P5； C4经核大小为1×1卷积操作得到的C4 ’与特征f1两倍上采样结果进行特征融合得到f2，再由f2经核大小为3 ×3卷积操作得到特征金字塔P4； C3经核大小为1 ×1卷积操作得到的 C3’与特征f2两倍上采样结果进行特征融合得到f3，再由f3经核大小为3 ×3卷积操作得到特征金字塔P3；步骤4、构建检测子网络，由目标分类子网络和边界框回归子网络构成，两个子网络都是由3个卷积核大小为3×3的卷积层构成的全连接结构，以特征金字塔的输出作为输入；分类子网络预测先验框和目标类别在每个位置上存在真实目标的概率，边界框回归子网会将每个先验框的4个空间位置的偏移量回归到附近的真实目标上；步骤5、使用K ‑means聚类方法，确定合适的检测框尺寸， K ‑means聚类步骤如下： S1.设定9个聚类中心点(即9组先验框宽高)； S2.计算圣女果图像数据集中真实目标的标注框尺寸与每一个聚类中心点的距离d： d(box,cent roid)＝1‑IoU(box,cent roid) (2) 其中， IoU为标注框与聚类中心宽高的交并比； S3.将标注框分配给距离最近的聚类中心，并对每个簇重新计算聚类中心点，计算方式为：权　利　要　求　书 1/3 页 2 CN 114821106 A 2其中， i∈[1,9]表示簇号， Ni表示在第i簇中标注框的个数， Wi'表示第i个簇中所有标注框的宽的平均值， wj表示第j个标注框宽度,Hi'表示第i个簇中所有标注框的高的平均值， hj 表示第j个标注框宽度； S4.重复第S2、 S3步，直至聚类中心趋于拟合，得到最终的9组合适检测框尺寸；步骤6、定义模型训练的损失函数，引入Focal Loss作为本模型的分类损失函数，通过降低易分负样本的损失权重从而聚焦于训练难分负样本，解决训练过程中出现的极大的正负样本不平衡的影响； Focal Loss计算步骤如下： LFL(pt)＝‑αt(1‑pt)γlog(pt) (5) 其中,y∈{±1}表示样本对应的真实标签， p∈[0,1]表示模型对y＝1分类的概率估计， αt∈[0,1]是一个用于平衡正负样本的加权因子， γ＞0是可调聚焦参数， (1 ‑pt)γ作为弱化易分负样本的调节因子，从而使训练聚集于难分负样本；引入CIoULoss作为边界框回归预测的损失函数，提升模型对边界框回归的精度的同时，加快模型的收敛速度；为精准反映检测框与目标框的实际情况， CIoULoss将边界框回归损失的三个重要几何因素：重叠面积、中心点距离和高宽比都考虑容纳进来， CI oULoss具体的计算过程如下：其中， RCIoU定义为检测框和目标框的惩罚项， ρ2(b,bgt)为两框的中心点之间的欧式距离， c为包围两框最小矩形的对角距离， v衡量两框高宽比的差异， α 是一个正权衡参数， wgt、 hgt、 w、 h分别为真实目标框和检测框的宽高值， IoU为检测框与真实目标框交并比；本模型的损失函数为： L＝LFL+β LCIoU (11) 其中， β用于平衡分类损失和边界框回归损失的系数；步骤7、训练模型，采用迁移学习，加载ResNet50预训练权重，加速模型的收敛速度；模型设定的图像输入大小为640 ×640，并在输入到网络前进行了归一化处理，网络参数更新采用了随机梯度下降方法(SGD)进行优化；步骤8、用训练好的模型对圣女果进行检测。 2.根据权利要求1所述的一种基于特征金字塔的圣女果检测识别方法，其特征在于，在所述步骤2 中，混合膨胀卷积组件的膨胀率依次为dr＝1、 2、 3，能够使得特征感受野增大合权　利　要　求　书 2/3 页 3 CN 114821106 A 3

专利 一种基于特征金字塔的圣女果检测识别方法

专利一种基于特征金字塔的圣女果检测识别方法