行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211139594.5 (22)申请日 2022.09.19 (71)申请人 中南大学 地址 410083 湖南省长 沙市岳麓区麓山 南 路932号 (72)发明人 杨柳 殷鑫 龙军 蒋豫 吴振杰 (74)专利代理 机构 长沙七源专利代理事务所 (普通合伙) 43214 专利代理师 邹琦 张勇 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G10L 25/57(2013.01) (54)发明名称 基于音视频双模态特征融合的视频时域动 作分割方法 (57)摘要 本发明提供了一种基于音视频双模态特征 融合的视频时域动作分割方法, 设计了一种视频 时域动作分割网络模型, 将音频特征引入到视频 时域动作分割任务中, 利用音频 天然的波形特征 以及视频特征用于回归动作边界概率, 并设计多 阶段视听双模态级联网络, 用以捕获视频的边界 信息, 细化网络的逐帧动作预测; 同时设计视听 双模态边界回归模块计算音频特征和视频特征 得到动作边界概率并对上述多阶段视听双模态 级联网络的动作分类结果进行细化, 捕获可靠的 视频片段与正确的视频动作分类, 用以缓解视频 分割时的边界模糊问题, 提高视频动作分割效 果。 权利要求书3页 说明书13页 附图2页 CN 115471774 A 2022.12.13 CN 115471774 A 1.基于音视频双模态特 征融合的视频时域动作分割方法, 其特 征在于, 包括以下步骤: S1: 提取多媒体数据的视频 特征和音频 特征; S2: 建立视频时域动作分割网络模型, 并依据视频时域动作分割网络模型输出视频时 域动作分割分类结果, 所述视频时域动作分割网络模型包括多阶段视听双 模态级联网络与 视听双模态边界回归 模块, 具体步骤 包括: S2‑1: 将多媒体数据的音频特征融入视频特征, 得到融合后的视听双模态特征, 输入多 阶段视听多模态级联网络中; S2‑2: 基于音频特征和视频特征, 通过视听双模态边界回归模块生成视听双模态边界 平滑算子, 通过视听双 模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段 的帧置信度得分, 并生成自注意力权 重; S2‑3: 将多阶段视听多模态级联网络中每个级联阶段的帧置信度 得分根据自注意力权 重矩阵加权求和, 输入融合阶段, 得到融合分类分数, 根据融合分类分数输出视频时域动作 分割分类结果。 2.根据权利要求1所述的视频时域动作分割方法, 其特征在于, 所述步骤S2 ‑2中通过视 听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段 的帧置信度得分 的表达式为: b′=(bvideo+β baudio)/2; 其中, 为加入平滑算子后网络预测的帧置信度得 分; 为帧置信度得 分; s为池化的 方向; β 为确定不 同特征贡献的模型超参数; L为长度, 池化窗口的长度为2L+1; 为 池化窗口内帧的帧置信度得分; α 为自注意力权重的衰减率; j为池化窗口中每个方向取 的 元素数目; b ′t+s·j为池化窗口内的动作边界概率; att为自注意力调整单元; b ′为融合边界 概率; bvideo为视频边界概 率; baudio为音频边界概 率。 3.根据权利要求2所述的视频时域动作分割方法, 其特征在于, 所述步骤S2 ‑2中自注意 力权重的表达式为: 其中, 为多阶段视听多模态级联网络中每个级联阶段的自注意力权重; e为自然常 数; ρ 为设置的帧置信度得分阈值; 为时间为t, 阶段为j ′时的帧置信度得分。 4.根据权利要求3所述的视频时域动作分割方法, 其特征在于, 所述步骤S2 ‑3中融合分权 利 要 求 书 1/3 页 2 CN 115471774 A 2类分数的表达式为: 其中, 为融合分类分数。 5.根据权利要求4所述的视频时域动作分割方法, 其特征在于, 所述步骤S2 ‑3中还包括 以下步骤: 通过视听双模态边界平 滑算子平 滑融合分类分数, 其表达式如下: b′=(bvideo+β baudio)/2; 其中, 为加入平 滑算子后网络预测的平 滑融合分类分数。 6.根据权利要求5所述的视频时域动作分割方法, 其特征在于, 还包括级联阶段在帧上 的损失分布, 表达式如下: 其中, 为级联阶段在帧上的损失分布; yt, c为在时间t时类别c的预测概率; t为某一 时间; 以及融合阶段在帧上的分类损失, 表达式如下: 其中, 为分类损失; T为多媒体数据的总时长 。 7.根据权利要求6所述的视频时域动作分割方法, 其特征在于, 通过视听双模态边界平 滑算子平 滑级联阶段的帧置信度得分和融合分类分数时的平 滑损失, 其表达式如下: Δt, c=|log yt, c‑log yt‑1, c|;权 利 要 求 书 2/3 页 3 CN 115471774 A 3
专利 基于音视频双模态特征融合的视频时域动作分割方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 16:58:06
上传分享
举报
下载
原文档
(1.6 MB)
分享
友情链接
GB-T 14272-2021 羽绒服装.pdf
NB-T 10179-2019 煤矿在用高压开关设备电气试验规范.pdf
T-CAS 673—2022 汽车用户投诉处理服务质量评价通则.pdf
GB-T 26837-2011 无损检测仪器 固定式和移动式工业X射线探伤机.pdf
GB-T 31504-2015 信息安全技术 鉴别与授权 数字身份信息服务框架规范.pdf
GM-T 0113-2021 在线快捷身份鉴别协议.pdf
国家密码局 信息安全等级保护 商用密码技术实施要求 2009.pdf
GB-T 34946-2017 C#语言源代码漏洞测试规范.pdf
GB-T 37046-2018 信息安全技术 灾难恢复服务能力评估准则.pdf
GB-T 41629.1-2022 额定电压500 kV(Um=550 kV)交联聚乙烯绝缘大长度交流海底电缆及附件 第1部分:试验方法和要求.pdf
GB-T 40873-2021 大洋富钴结壳资源勘查规程.pdf
GB-T 18226-2015 公路交通工程钢构件防腐技术条件.pdf
DB11-T 2046.1-2022 智慧停车系统技术要求 第1部分:总则 北京市.pdf
WDTA AI-STR-02-LLM security Large Language Model Security.pdf
信息安全学报 社工概念演化分析 2021.pdf
GB-T 39243-2020 船用生物可溶性矿物棉制品技术要求及试验方法.pdf
NY-T 1215-2006 水稻光、温敏雄性核不育系育性鉴定规程.pdf
GB-T 351-2019 金属材料 电阻率测量方法.pdf
GB-T 25759-2010 无损检测 数字化超声检测数据的计算机传输数据段指南.pdf
GB-T 43206-2023 信息安全技术 信息系统密码应用测评要求.pdf
1
/
3
19
评价文档
赞助2元 点击下载(1.6 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。