行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210489413.5 (22)申请日 2022.05.06 (71)申请人 西安电子科技大 学 地址 710071 陕西省西安市太白南路2号 (72)发明人 韩金月 盛立杰 苗启广  (74)专利代理 机构 陕西电子 工业专利中心 61205 专利代理师 王品华 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多感受野和注意力特征金字塔的轻量 级目标检测方法 (57)摘要 本发明公开了一种基于多感受野和注意力 特征金字塔的轻量级目标检测方法, 主要解决存 储资源受限设备中检测精度较低及检测速度较 慢的问题, 其实现方案是: 1)获取目标检测图像 的训练集和测试集; 2)构建轻量级多感受野模 块; 3)构建注意力特征金字塔; 4)以FCOS框架为 基础, 构建由MobileNetv2网络、 轻量级多感受野 模块、 注意力特征金字塔、 预测模块组成的深度 学习网络, 并使用训练集对其进行训练; 5)将测 试集中的图像输入到训练好的深度学习网络, 得 到目标检测结果。 本发明能快速准确地检测出图 像中包含的目标, 且检测精度高、 检测速度快, 参 数量小, 可用于行人检测、 人脸识别、 智能监控、 工业检测。 权利要求书3页 说明书7页 附图3页 CN 114937151 A 2022.08.23 CN 114937151 A 1.一种基于多感受野和注意力特征金字塔的轻量级目标检测方法, 其特征在于, 包括 如下: (1)从网络上获取包 含训练集、 验证集和 测试集的目标检测图像数据集; (2)以全卷积一阶段目标检测 FCOS框架为基础, 使用MobileNetv2网络作为主干网络, 对图像进行基础特征提取, 生 成多尺度特征图C3、 C4、 C5, 其分别对应原始图像的8、 16、 32下 采样比例; (3)构建轻量级 多感受野 模块, 并采用此模块处 理特征图C3、 C4: (3a)搭建由标准卷积层、 逐通道空洞卷积层、 逐点卷积层依次级联组成的空洞残差网 络, 并将空洞残差网络串行级联三层, 构成轻量级 多感受野 模块; (3b)设置轻量级多感受野模块对应于第一尺度特征图C3的各层网络的参数, 再输入C3 到轻量级 多感受野 模块中, 输出第一尺度增强特 征图C3′; (3c)设置轻量级多感受野模块对应于第二尺度特征图C4的各层网络的参数, 再输入C4 到轻量级 多感受野 模块中, 输出第二尺度增强特 征图C4′; (4)构建注意力特 征金字塔: (4a)采用卷积核大小为1 ×1, 卷积核通道数为1280, 卷积核总数为256的卷积层对第三 尺度特征图C5进行降维, 得到第三尺度降维特 征图C5*; (4b)对第三尺度降维特征图C5*进行最邻近插值上采样, 同时采用卷积核大小为1 ×1, 卷积核通道数为96, 卷积核总数为256的卷积层对第二尺度增强特征图C4 ′进行维度变换, 并将两者做逐元素相加运算以进行融合, 再经过卷积核为3 ×3, 卷积核通道数为256, 卷积 核总数为25 6的卷积层, 得到第二尺度融合特 征图P4; (4c)对第二尺度融合特征图P4进行最邻近插值上采样, 同时对增强的第一尺度增强特 征图C3′采用卷积核为1 ×1, 卷积核通道数为32, 卷积核总数为256的卷积层 进行维度变换, 并将两者做逐元素相加运算以进行融合, 再经过卷积核为3 ×3, 卷积核通道数为256, 卷积 核总数为25 6的卷积层, 得到第一尺度融合特 征图P3; (4d)采用卷积核大小为1 ×1, 卷积核通道数为256, 卷积核总数为256 的卷积层对第三 尺度降维特 征图C5*进行增强, 得到第三尺度增强特 征图P5; (4e)由空间注意力SE调整第三尺度增强特征图P5的各通道特征信息, 并经过步长为2, 卷积核为3 ×3, 卷积核通道数为256, 卷积核总数为256的卷积层, 得到尺 寸缩小一倍的第四 尺度增强特 征图P6; (4f)由空间注意力SE调整第四尺度增强特征图P6的全局特征信息, 并依次经过RELU激 活层, 和步长为2, 卷积核为3 ×3, 卷积核通道数为256, 卷积核总数为256的卷积层, 得到尺 寸缩小一 倍的第五尺度增强特 征图P7; (4g)将(4a)~(4f)得到的特征图P3、 P4、 P5、 P6、 P 7从下到上依次排列, 得到多尺度的注 意力特征金字塔; (5)以全卷积一阶段目标检测 FCOS框架为基础, 将MobileNetv2网络、 轻量级多感受野 模块、 注意力特 征金字塔、 预测模块组成深度学习网络; (6)训练深度学习网络: (6a)采用ImageNet数据集上的预训练模型初始化MobileNetv2网络, 使用正态分布N (0,0.01)初始化深度学习网络其 余各层权 重参数;权 利 要 求 书 1/3 页 2 CN 114937151 A 2(6b)预处 理训练样本集: 调整图像尺寸大小为512 ×512, 并进行 数据增强; (6c)设置深度学习网络训练超参数: 将迭代次数设置为72k, MobileNetv2网络的学习 率设置为0.00067, 其余部分网络的学习率设置为0.002, 在第50k、 60k次迭代时, 学习率缩 小为当前 学习率的0.1倍, 一次输入的图像数batc h设置为8; (6d)将训练样本集中的batch张图像输入到深度学习网络中进行前向传播, 得到预测 类别和预测框坐标; (6e)采用自适应训练样本分配策略, 为每 个预测框分配正负 样本; (6f)使用广义焦点损失函数, 计算预测框与对应样本的损失值; (6g)在深度学习网络 中反向传播损失值, 利用梯度下降方法更新各网络节点的权重参 数, 直到损失值收敛, 得到训练好的深度学习网络; (7)目标检测: (7a)将测试样本集中的图像调整为512 ×512, 依次输入到训练好的深度学习网络进行 前向传播, 得到每张图像的预测类别和预测框坐标; (7b)采用非极大值抑制法, 筛 选重叠的预测框, 得到最终的预测类别和预测框坐标。 2.根据权利要求1所述方法, 其特征在于: 所述(3a)中空洞残差网络的各层参数设置如 下: 标准卷积层, 其卷积核的大小设置为1 ×1; 逐通道空洞卷积层, 其卷积核的大小设置为3 ×3; 逐点卷积层, 其卷积核的大小设置为1 ×1。 3.根据权利要求1所述方法, 其特征在于: 所述(3b)中设置轻量级多感受野模块对应于 第一尺度特 征图C3的各层网络的参数, 实现如下: 在每层空洞残差网络中设置标准卷积层的卷积核的通道数为32, 卷积核的总数为19 2; 在每层空洞残差网络中设置逐通道空洞卷积层的卷积核的通道数为192, 卷积核的总 数为192; 在每层空洞残差网络中设置逐点卷积层的卷积核的通道数为19 2, 卷积核的总数为32; 在第一、 二、 三层空洞残差网络中设置逐通道空洞卷积的空洞率分别为1、 2、 3 。 4.根据权利要求1所述方法, 其特征在于: 所述(3c)中设置轻量级多感受野模块对应于 第二尺度特 征图C4的各层网络的参数, 实现如下: 在每层空洞残差网络中设置标准卷积层的卷积核的通道数为96, 卷积核的总数为576; 在每层空洞残差网络中设置逐通道空洞卷积层的卷积核的通道数为576, 卷积核的总 数为576; 在每层空洞残差网络中设置逐点卷积层的卷积核的通道数为576, 卷积核的总数为96; 在第一、 二、 三层空洞残差网络中设置逐通道空洞卷积的空洞率分别为1、 2、 3 。 5.根据权利要求1所述的方法, 其特征在于: 所述(5)中深度学习网络中各模块的连接 关系为: MobileNetv2网络分别与轻量级多感受野模块、 注意力特征金字塔连接; 轻量级多 感受野模块与注意力特 征金字塔连接; 注意力特 征金字塔与预测模块连接 。 6.根据权利要求1所述的方法, 其特征在于: 所述(6e )中采用自适应训练样本分配策 略, 为每个预测框分配正负 样本, 实现如下: (6e1)为每个预测框构 建一个锚框, 锚框的中心点为预测框在原图上对应的坐标点, 锚权 利 要 求 书 2/3 页 3 CN 114937151 A 3

PDF文档 专利 基于多感受野和注意力特征金字塔的轻量级目标检测方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多感受野和注意力特征金字塔的轻量级目标检测方法 第 1 页 专利 基于多感受野和注意力特征金字塔的轻量级目标检测方法 第 2 页 专利 基于多感受野和注意力特征金字塔的轻量级目标检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。