行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210448080.1 (22)申请日 2022.04.26 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 申请人 杭州电子科技大 学信息工程学院 (72)发明人 张海平 马琮皓 胡泽鹏 刘旭  管力明 施月玲  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 杨天娇 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多时间分辨率时态语义聚合网络的时 序动作定位方法 (57)摘要 本发明公开了一种基于多时间分辨率时态 语义聚合网络的时序动作定位方法, 包括: 获取 原始视频并进行预处理, 预处理为从原始视频中 提取特征序列并注释标签; 复制特征序列为N' 份, 并通过卷积层将复制后的各特征序列的时间 分辨率调整为不同值; 建立多时间分辨率时态语 义聚合网络; 将时间分辨率调整后的各特征序列 一一对应输入子模块, 采用分类损失和回归损失 训练多时间分辨率时态语义聚合网络; 利用训练 好的多时间分辨率时态语义聚合网络预测待识 别视频的动作开始时间、 动作结束时间、 动作种 类和置信分数。 该方法可获得更灵活更具鲁棒性 的上下文关系表达, 并大大提高计算能力和时序 动作定位的准确性。 权利要求书2页 说明书7页 附图3页 CN 114821420 A 2022.07.29 CN 114821420 A 1.一种基于多时间分辨率时态语义聚合网络的时序动作定位方法, 其特征在于: 所述 基于多时间分辨 率时态语义聚合网络的时序动作定位方法包括如下步骤: S1、 获取原始视频并进行预处理, 所述预处理为从原始视频中提取特征序列 所述特征序列X携带有注释标签 其 中, 时间分辨率T=S/σ, S为原始视频的总帧数, σ 为不同片段xi之间间隔的帧数, C为片段xi 的特征维度, kn为第n个动 作, ts, n、 te, n和Cn依次为第n个动作的开始时间、 结束时间和动作种 类; S2、 复制特征序列X为N ′份, 并通过卷积层将复制后的各特征序列X的时间分辨率调整 为不同值; S3、 建立多时间分辨率时态语义聚合网络, 所述多时间分辨率时态语义聚合网络包括 依次连接的第一特征提取单元、 第二特征提取单元、 第三特征提取单元和 后处理模块, 所述 第一特征提取单元包括N ′个并行的子模块, 所述子模块包括依次连接的第一时态语义上下 文融合模块和 第一注意力单元, 所述第二特征提取单元用于将各所述第一注意力单元的输 出特征图进行相加聚合, 所述第三特征提取单元包括依 次连接的第二注意力单元、 第七特 征提取单元和第二时态语义上 下文融合模块, 其中: 各所述时态语义上下文融合模块, 包括第四特征提取单元、 以及并行的第 一分支单元、 第二分支单元和 第三分支单元, 所述第一分支单元用于输出对应时态语义上下文融合模块 的原始输入特征图, 所述第二分支单元包括依 次连接的自注意力模块、 第 五特征提取单元 和第一分组卷积单元, 所述第 五特征提取单元还与所述自注意力模块的输入端连接, 用于 进行相加聚合, 所述第三分支单元包括依次连接的动态图卷积 网络、 第一Involution卷积 层、 第二Involution卷积层、 第六特征提取单元、 第一MobileNet网络、 第二分组卷积单元和 第二MobileNet网络, 所述第六特征提取单元还与所述动态图卷积网络的输出端 连接, 用于 进行相加聚合, 所述第四特征提取单元用于将所述第一分支单元、 第二分支单元和第三分 支单元的输出 特征图进行相加聚合; 各所述注意力单 元基于八头注意力机制进行局部特 征和全局特 征提取; 所述第七特征提取单元用于将所述第二注意力单元的输出特征图与超参数1/N' 进行 相乘操作; 所述后处理模块包括依次连接的上采样模块、 concat层和全连接层, 所述上采样模块 还与所述第二时态语义上 下文融合模块的动态图卷积网络的输出端连接; S4、 将时间分辨率调整后的各特征序列X一一对应输入所述子模块, 采用分类损失和回 归损失训练多时间分辨 率时态语义聚合网络; S5、 利用训练好的多时间分辨率时态语义聚合网络预测待识别视频的动作开始时间、 动作结束时间、 动作种类和置信分数。 2.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法, 其 特征在于: 步骤S2中, N ' =3, 调整后的各 特征序列X的时间分辨 率分别为T、 T/2、 25 6。 3.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法, 其 特征在于: 各 所述分组卷积单 元采用32条路径。 4.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法, 其权 利 要 求 书 1/2 页 2 CN 114821420 A 2特征在于: 所述第五特征提取单元、 第二Involution卷积层、 第四特征提取单元的输出端均 连接有Relu激活函数。 5.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法, 其 特征在于: 所述第五特征提取单元将8 0%的原始输入特征图和20%的自注 意力模块的输出 特征图进行相加聚合。 6.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法, 其 特征在于: 所述注意力单 元分别采用四头注意力机制进行局部特 征和全局特 征提取。 7.如权利要求1所述的基于多时间分辨率时态语义聚合网络的时序动作定位方法, 其 特征在于: 所述分类损失Lc和回归损失Ln, 计算公式如下: Lc=Lwce(ps, dss)+Lwce(pe, dse) Ln=Lwce(pcls, 1{ ψc>0.5})+ω1·Lmse(preg, ψc) 其中, Lmse为均方误差损失, Lwce为加权交叉熵损失, ps为每个片段对应的预测开始概率, pe为每个片段对应的预测结束概率, dss为每个片段对应的ps的训练目标, dse为每个片段对 应的pe的训练目标, pcls为分类损失对应的得分, preg为回归损失对应的得分, ω1为权衡系 数, ψc为最大的IoU。权 利 要 求 书 2/2 页 3 CN 114821420 A 3

PDF文档 专利 基于多时间分辨率时态语义聚合网络的时序动作定位方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多时间分辨率时态语义聚合网络的时序动作定位方法 第 1 页 专利 基于多时间分辨率时态语义聚合网络的时序动作定位方法 第 2 页 专利 基于多时间分辨率时态语义聚合网络的时序动作定位方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。