行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210785189.4 (22)申请日 2022.07.05 (71)申请人 福州大学 地址 350108 福建省福州市闽侯县福州大 学城乌龙江北 大道2号福州大 学 (72)发明人 柯逍 缪欣  (74)专利代理 机构 福州元创专利商标代理有限 公司 35100 专利代理师 丘鸿超 蔡学俊 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/762(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多尺度特征融合注意力的实时动作检 测方法 (57)摘要 本发明涉及一种基于多尺度特征融合注意 力的实时动作检测方法, 首先对 数据集视频片段 进行帧集划分, 通过随机排序操作对其进行数据 增强。 其次, 对输入视频片段进行关键帧的提取, 获得的关键帧进行光流信息的提取。 将获取到视 频片段、 关键帧以及关键帧光流分别输入 ResNext101以及Darknet网络进行特征提取, 并 通过多尺度特征融合注意力模块对特征进行增 强, 拼接时空特征通过通道注 意力进一步融合时 空特征, 最后通过分类以及回归 得到类别边界框 以及置信 度, 经过NMS (非极大值抑制) , 得出预测 结果。 权利要求书3页 说明书7页 附图1页 CN 115131710 A 2022.09.30 CN 115131710 A 1.一种基于多尺度特 征融合注意力的实时动作检测方法, 其特 征在于: 包括以下步骤: 步骤S1: 对数据集视频片段进行帧集划分, 通过随机排序操作对其进行数据增强; 并对 视频片段进行关键帧的提取, 对关键帧提取光 流信息; 步骤S2: 将获取到视频片段输入ResNext101网络提取 时序特征, 并对其进行压缩处理, 将关键帧以及关键帧的光 流信息输入Dark net网络提取空间特 征以及运动特 征; 步骤S3: 通过堆叠不同膨胀率的运动注意力模块获取多尺度特 征; 步骤S4: 拼接时空特 征通过通道 注意力以进一 步融合时空特 征; 步骤S5: 通过分类、 回归网络得到类别边界框以及置信度, 经过非极大值抑制NMS, 最后 得出概率最大的边界框作为预测结果。 2.根据权利要求1所述的基于多尺度特征融合注意力的实时动作检测方法, 其特征在 于: 步骤S1具体包括以下步骤: 步骤S11: 将数据集视频片段以p帧的间隔均匀采样, 将采样视频片段划分为n个等长的 帧集, 即S={s1,s2,…,sn}, 每个帧集sfi由等长的视频帧序列组成; 步骤S12: 对帧集{s1,s2,…,sn}进行随机排序组成新的视频片段S'={s'1,s'2,…,s 'n}, 达到数据增强的效果, 供训练过程使用; 步骤S13: 将输入视频片段划分为起始、 中间、 结尾三个部分, 分别随机提取一帧作 为关 键帧, 简要表示视频动作; 步骤S14: 使用RAFT模型对关键帧提取光 流信息。 3.根据权利要求2所述的基于多尺度特征融合注意力的实时动作检测方法, 其特征在 于: 步骤S2具体包括以下步骤: 步骤S21: 将获取到视频片段输入3D骨干网络ResNext101网络提取时序特征M∈RC ×T×H×W, 其中T是输入帧的数量, H和W是输入图像的高度和宽度, C是输出通道的数量; 步骤S22: 将关键帧输入2D骨干网络Dark net网络提取空间特 征K∈RC'×H×W; 步骤S23: 将RAFT模型提取的关键帧光流信息输入2D骨干网络Darknet网络提取运动特 征O∈RC” ×H×W; 步骤S24: 为匹配2D骨干网络的的输出特征图, 将ResNext101输出特征M的深度维数减 少到1, 从而将输出体积压缩到[C ×H×W], 得到压缩后的特 征M'∈RC×H×W。 4.根据权利要求3所述的基于多尺度特征融合注意力的实时动作检测方法, 其特征在 于: 步骤S3具体包括以下步骤: 步骤S31: 分别将提取的三个特征K、 O、 M'经过两个投影层, 生成512个通道的特征图; 所 述投影层采用一个1 ×1卷积层降低信道维数, 一个3 ×3卷积层细化语义上 下文; 步骤S32: 通过不同的膨胀率堆叠运动注意力模块, 生成具有多个感受野的输出特征 K'、 O'、 M”, 以覆盖所有对象的尺度; 所述运动注意力模块的结构表示 为: Xout=Xattn*Xres+Xin Xattn=Fattn(APool(Xin); θ,Ω) Xres=F(Xin; θ,Ω) 式中, F(·)表示残差函数, APool( ·)表示平均池层, θ和Ω分别表示卷积层的结构; 使 用APool(·)执行非完全压缩操作, 然后对注意信道Xattn*Xres的输出进行上采样, 以匹配信权 利 要 求 书 1/3 页 2 CN 115131710 A 2道Xin的输出。 5.根据权利要求4所述的基于多尺度特征融合注意力的实时动作检测方法, 其特征在 于: 步骤S4具体包括以下步骤: 步骤S41: 拼接特 征K'、 O'、 M”以得到特 征A∈R(C+C'+C”)×H×W; 步骤S42: 将特征A输入两个卷积层以生成新的特征映射B∈RC×H×W; 然后将特征映射B转 化为C×N大小得到F∈RC×N, 其中N=H×W; 步骤S43: 将F∈RC×N与其转置FT∈RN×C相乘计算 通道间的特 征相关性, 生成矩阵G∈RC×C; 步骤S44:将矩阵输入Softmax层生成通道 注意映射 Q∈RC×C; 步骤S45: 对通道注意映射Q和特征F进行矩阵乘法, 并将结果转化回与特征映射B形状 相同的三维空间得到特 征F'∈RC×H×W; 步骤S46: 将张量F'与原 始输入特 征映射B通过求和运 算结合, 得到 输出C∈RC×H×W: C= δ·F'+B 其中δ 为训练参数。 6.根据权利要求5所述的基于多尺度特征融合注意力的实时动作检测方法, 其特征在 于: 步骤S5具体包括以下步骤: 步骤S51: 将融合特征通过一个1 ×1核的卷积层用于生成[(5 ×(NumCls+5)) ×H×W]大 小的输出信道, 其中(NumCl s+5)包括NumCls个类动作得分cls、 4个坐标[bx,by,bw,bh]和置 信度得分Co nf; 步骤S52: 在数据集上通过k ‑means聚类算法选择5个先验anc hor; 步骤S53: 在初始锚点框的基础上, 通过Sigmod回归边界框位置以及置信度, 通过CIOU 损失计算 边界框损失, 通过二元交叉熵损失计算置信度损失, CIOU损失计算公式如下: 式中, b,和bgt表示两个矩形框的中心点,即坐标[bx,by],[xgt,ygt], ρ 表示两个矩形框 之间的欧氏距离, u表示两个矩形框的闭包区域的对角线的距离, IOU为边界框重叠面积与 总面积的占比; 步骤S54: 通过全连接层和Soft max层进行分类, 通过Focal  Loss计算分类损失, 计算公 式如下: 其中, α 和γ均为可以调节的超参数; clsgt为模型预测, 其值介于0‑1之间; 步骤S55: 将边界框损失、 置信度损失 以及分类损失相加作为总损失, 反向更新网络参 数; 步骤S56: 选取一个置信度阈值, 取出每一类得分大于一定阈值的框和得分进行排序, 过滤掉低阈值预测边界框, 利用框的位置和得分进 行经过非极大值抑制NMS, 最后得出概率 最大的边界框作为预测结果;权 利 要 求 书 2/3 页 3 CN 115131710 A 3

.PDF文档 专利 基于多尺度特征融合注意力的实时动作检测方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多尺度特征融合注意力的实时动作检测方法 第 1 页 专利 基于多尺度特征融合注意力的实时动作检测方法 第 2 页 专利 基于多尺度特征融合注意力的实时动作检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:58:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。