行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211139594.5 (22)申请日 2022.09.19 (71)申请人 中南大学 地址 410083 湖南省长 沙市岳麓区麓山 南 路932号 (72)发明人 杨柳 殷鑫 龙军 蒋豫 吴振杰  (74)专利代理 机构 长沙七源专利代理事务所 (普通合伙) 43214 专利代理师 邹琦 张勇 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G10L 25/57(2013.01) (54)发明名称 基于音视频双模态特征融合的视频时域动 作分割方法 (57)摘要 本发明提供了一种基于音视频双模态特征 融合的视频时域动作分割方法, 设计了一种视频 时域动作分割网络模型, 将音频特征引入到视频 时域动作分割任务中, 利用音频 天然的波形特征 以及视频特征用于回归动作边界概率, 并设计多 阶段视听双模态级联网络, 用以捕获视频的边界 信息, 细化网络的逐帧动作预测; 同时设计视听 双模态边界回归模块计算音频特征和视频特征 得到动作边界概率并对上述多阶段视听双模态 级联网络的动作分类结果进行细化, 捕获可靠的 视频片段与正确的视频动作分类, 用以缓解视频 分割时的边界模糊问题, 提高视频动作分割效 果。 权利要求书3页 说明书13页 附图2页 CN 115471774 A 2022.12.13 CN 115471774 A 1.基于音视频双模态特 征融合的视频时域动作分割方法, 其特 征在于, 包括以下步骤: S1: 提取多媒体数据的视频 特征和音频 特征; S2: 建立视频时域动作分割网络模型, 并依据视频时域动作分割网络模型输出视频时 域动作分割分类结果, 所述视频时域动作分割网络模型包括多阶段视听双 模态级联网络与 视听双模态边界回归 模块, 具体步骤 包括: S2‑1: 将多媒体数据的音频特征融入视频特征, 得到融合后的视听双模态特征, 输入多 阶段视听多模态级联网络中; S2‑2: 基于音频特征和视频特征, 通过视听双模态边界回归模块生成视听双模态边界 平滑算子, 通过视听双 模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段 的帧置信度得分, 并生成自注意力权 重; S2‑3: 将多阶段视听多模态级联网络中每个级联阶段的帧置信度 得分根据自注意力权 重矩阵加权求和, 输入融合阶段, 得到融合分类分数, 根据融合分类分数输出视频时域动作 分割分类结果。 2.根据权利要求1所述的视频时域动作分割方法, 其特征在于, 所述步骤S2 ‑2中通过视 听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段 的帧置信度得分 的表达式为: b′=(bvideo+β baudio)/2; 其中, 为加入平滑算子后网络预测的帧置信度得 分; 为帧置信度得 分; s为池化的 方向; β 为确定不 同特征贡献的模型超参数; L为长度, 池化窗口的长度为2L+1; 为 池化窗口内帧的帧置信度得分; α 为自注意力权重的衰减率; j为池化窗口中每个方向取 的 元素数目; b ′t+s·j为池化窗口内的动作边界概率; att为自注意力调整单元; b ′为融合边界 概率; bvideo为视频边界概 率; baudio为音频边界概 率。 3.根据权利要求2所述的视频时域动作分割方法, 其特征在于, 所述步骤S2 ‑2中自注意 力权重的表达式为: 其中, 为多阶段视听多模态级联网络中每个级联阶段的自注意力权重; e为自然常 数; ρ 为设置的帧置信度得分阈值; 为时间为t, 阶段为j ′时的帧置信度得分。 4.根据权利要求3所述的视频时域动作分割方法, 其特征在于, 所述步骤S2 ‑3中融合分权 利 要 求 书 1/3 页 2 CN 115471774 A 2类分数的表达式为: 其中, 为融合分类分数。 5.根据权利要求4所述的视频时域动作分割方法, 其特征在于, 所述步骤S2 ‑3中还包括 以下步骤: 通过视听双模态边界平 滑算子平 滑融合分类分数, 其表达式如下: b′=(bvideo+β baudio)/2; 其中, 为加入平 滑算子后网络预测的平 滑融合分类分数。 6.根据权利要求5所述的视频时域动作分割方法, 其特征在于, 还包括级联阶段在帧上 的损失分布, 表达式如下: 其中, 为级联阶段在帧上的损失分布; yt, c为在时间t时类别c的预测概率; t为某一 时间; 以及融合阶段在帧上的分类损失, 表达式如下: 其中, 为分类损失; T为多媒体数据的总时长 。 7.根据权利要求6所述的视频时域动作分割方法, 其特征在于, 通过视听双模态边界平 滑算子平 滑级联阶段的帧置信度得分和融合分类分数时的平 滑损失, 其表达式如下: Δt, c=|log yt, c‑log yt‑1, c|;权 利 要 求 书 2/3 页 3 CN 115471774 A 3

.PDF文档 专利 基于音视频双模态特征融合的视频时域动作分割方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于音视频双模态特征融合的视频时域动作分割方法 第 1 页 专利 基于音视频双模态特征融合的视频时域动作分割方法 第 2 页 专利 基于音视频双模态特征融合的视频时域动作分割方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:58:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。