行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221026186 6.2 (22)申请日 2022.03.17 (71)申请人 哈尔滨理工大 学 地址 150080 黑龙江省哈尔滨市南岗区学 府路52号 (72)发明人 孙崐 甄伊凡 张彬  (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于改进C enterNet骨干网络的视频目标检 测算法 (57)摘要 本发明公开了一种基于改进C enterNet骨干 网络的视频目标检测算法, 包括以下步骤: 数据 集采集; 构建训练数据集; 图像特征提取; 图像特 征融合 ; 目标检测结果输出。 本发明改进 CenterNet骨干网络的目标检测算法包括利用 ADS‑DLA34代替DLA34骨干网络。 在ADS ‑DLA34网 络中, 将软池化代替DLA34网络下采样的传统池 化方式、 可变形卷积代替上采样传统2D卷积、 并 在网络中结合注意力机制。 使得改进之后的网络 减少了目标特征信息的损失、 增强对 形变遮挡目 标的学习能力、 且网络更关注于图像中的关键信 息, 增强了模型特征提取融合的能力。 从而以改 进模型结构 的角度, 提高目标检测算法的性能, 既保证了目标检测速度, 又提高了目标检测精 度, 增强了不同领域下尤其是视频中目标物体的 检测识别能力。 权利要求书1页 说明书5页 附图2页 CN 114639042 A 2022.06.17 CN 114639042 A 1.一种基于改进CenterNet骨干 网络的视频目标检测算法, 其特征在于, 所述方法包括 以下步骤: 步骤S1: 数据集采集,所述的采集数据集包含待检测目标的若干图像, 本发明采集开源 的数据集图像。 步骤S2: 构建改进CenterNet骨干网络DLA34的AD S‑DLA34的训练数据集。 步骤S3: 图像特征提取, 所述的图像特征提取是ADS ‑DLA34网络采用小步进的下采样率 实现不同层级之间目标 特征的提取。 步骤S4: 图像特征融合, 所述的图像特征融合是DLA网络通过迭代深度聚合将不同阶段 之间的特 征融合, 分层深度聚合将不同阶段之间的基本模块融合 步骤S5: 目标检测结果输出, 所述的检测结果输出就是经过特征提取特征融合后, 通过 注意力机制模块, 输出带有特征权值的注 意力特征图, 在改进Center Net骨干网络的最后加 入三个网络层来输出目标检测预测结果。 2.根据权利要求1所述的改进CenterNet骨干网络的视频目标检测算法, 其特征在于, 所述步骤S2构建CenterNet网络的训练数据集开源的数据集图像, 包括把数据集图像进行 数据增强。 数据增强包括随机翻转、 随机缩放、 裁剪和颜色抖动, 还包括添加每一幅图像对 应的标注信息 。 所述标注信息包括图片信息、 对应标注的位置信息、 类别 信息。 3.根据权利要求1所述的改进CenterNet骨干网络视频目标检测算法, 其特征在于, 所 述步骤S3图像特征提取网络是基于DLA34网络进行改进, 包括经过基层和第一层实现对输 入图像的初步特征提取, 将第一层的输出传入第二层中, 经过下采样操作直至最后的第 五 层, 采用小步进的下采样率实现不同层级之间目标 特征的提取。 4.根据权利要求3所述的改进CenterNet骨干网络的视频目标检测算法, 其特征在于, ADS‑DLA34特征提取网络中下采样操作将软池化代 替DLA34网络传统池化方式, 并在采样过 程中通过迭代深度聚合将不同阶段之 间的特征融合, 分层深度聚合将不同阶段之 间的基本 模块融合, 实现语义和空间中的特 征结合。 5.根据权利要求1所述的改进CenterNet骨干网络的视频目标检测算法, 其特征在于, 所述步骤S4图像特征融合即在下采样和特征提取后, 改进CenterNet骨干网络DLA34的ADS ‑ DLA34采用多层 级融合网络中的DLAUP模块实现网络的上采样, 在上采样过程中用可变形卷 积代替上采样传统2D卷积, 并采用IDAUP模块完成上采样中的多层级融合。 6.根据权利要求1所述的改进CenterNet骨干网络的视频目标检测算法, 其特征在于, 所述步骤S5目标检测结果输出在图像特征提取融合后, 结合注意力机制, 通过改进 CenterNet骨干网络ADS ‑DLA34加入三个平行头来输出目标检测预测结果。 输出三个分支分 别为中心点热力图(Heatmap)、 目标中心点偏置(Of fset)和目标的宽、 高(Weight& Height)。 7.根据权利 要求6所述的改进CenterNet骨干 网络的视频目标检测算法, 其特征在于三 个分支的损失包括热力图损失, 中心点偏置损失和中心点宽高损失, 总的损失函数为Ldet, 公式为Ldet=Lk+λsizeLsize+λoffLoff, 其中LK是热力图预测损失, Loff是中心点偏置损失, Lsize是 中心点宽高损失, 其中λsize、 λoff分别为各个不同损失函数的权 重。 8.根据权利要求1所述的改进CenterNet骨干网络的视频目标检测算法, 其特征在于, 所述步骤S5输出 目标检测预测结果对预测结果进行筛选, 还包括Heatmap预测作 非极大值 抑制处理的方法, 通过3 ×3卷积进行最大池化, 保留临域中最大的数值, 其 余置为0。权 利 要 求 书 1/1 页 2 CN 114639042 A 2基于改进CenterN et骨干网 络的视频目标 检测算法 技术领域 [0001]本发明涉及图像处理技术领域, 具体涉及目标检测领域, 尤其涉及一种改进 CenterNet骨干网络DLA34的AD S‑DLA34目标检测算法。 背景技术 [0002]目标检测作为计算机视觉中重要的研究领域, 具有广泛的研究方向。 其中在交通、 监控视频中行人检测与跟踪是重要的研究方向之一。 计算机视觉即是研究视觉感知的问 题, 对采集的图像或视频图像序列处理分析, 以接收场景中的信息。 计算机视觉主要包括目 标检测、 目标跟踪、 图像处理、 目标识别、 姿态分析等方面。 如在目标检测中, 仅凭人类的双 眼难以在一些拥挤的场景中对一些存在 遮挡的行人进 行检测跟踪, 而且人工检测的成本比 较高, 速度较慢。 随着智能技术的发展, 通过计算机视觉中的方法可以补 充和改善人类视觉 能力的不足, 从而帮助人类更好的完成各项任务。 [0003]近年来, 深度学习技术发展迅速, 其中卷积神经网络也被大量应用于目标检测和 跟踪领域。 基于卷积神经网络下的目标检测和跟踪算法在检测准确度和跟踪精度方面都优 于传统的方法。 但是目前仍然存在一些难点问题, 例如在视频中行人目标检测时由于遮挡 造成的形态变化, 从而导致误检和漏检等情况; 在目标特征提取时, 特征信息提取不充分, 进而影响目标检测精度。 [0004]随着深度学习技术的飞速发展, 主流深度学习的目标检测算法分为两类: 基于锚 框(anchor ‑based)和基于无锚框(anchor ‑free)两类, anchor ‑based方法即是在输入图像 上预设一些大小一定的矩形框,但是会存在一些问题, 如预设的矩形框过多, 计算量会加大 从而导致速度变慢。 [0005]CenterNet是一种全新的基于anchor ‑free的深度神经网络识别算法, CenterNet 根据检测框的中心 点来检测物体, 仅需要一个关键点定位对象, 因此仅有一个分支, 网络结 构更加简单, 减少训练和推理预测时间, 从而提高了检测精度和速度。 发明内容 [0006]本发明的目的在于针对现有技术存在的一些问题, 提供一种精度较高、 速度较快 的目标检测算法, 以解决上述问题。 [0007]为实现上述目的, 本发明采用改进CenterNet骨干网络DLA34的ADS ‑DLA34目标检 测算法的技 术方案包括以下步骤: 步骤S1: 数据集采集,所述的采集数据集包含待检测目标的若干图像, 本发明采集 开源的数据集图像。 步骤S2: 构建改进CenterNet骨干网络DLA34的AD S‑DLA34训练数据集。 步骤S3: 图像特征提取, 所述的图像特征提取是ADS ‑DLA34网络采用小步进的下采 样率实现不同层级之间目标 特征的提取。 步骤S4: 图像特征融合, 所述的图像特征融合是D LA网络通过迭代深度聚合将不同说 明 书 1/5 页 3 CN 114639042 A 3

.PDF文档 专利 基于改进CenterNet骨干网络的视频目标检测算法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于改进CenterNet骨干网络的视频目标检测算法 第 1 页 专利 基于改进CenterNet骨干网络的视频目标检测算法 第 2 页 专利 基于改进CenterNet骨干网络的视频目标检测算法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:21:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。