专利 基于音视频双模态特征融合的视频时域动作分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211139594.5 (22)申请日 2022.09.19 (71)申请人中南大学地址 410083 湖南省长沙市岳麓区麓山南路932号 (72)发明人杨柳　殷鑫　龙军　蒋豫　吴振杰　 (74)专利代理机构长沙七源专利代理事务所 (普通合伙) 43214 专利代理师邹琦　张勇 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G10L 25/57(2013.01) (54)发明名称基于音视频双模态特征融合的视频时域动作分割方法 (57)摘要本发明提供了一种基于音视频双模态特征融合的视频时域动作分割方法，设计了一种视频时域动作分割网络模型，将音频特征引入到视频时域动作分割任务中，利用音频天然的波形特征以及视频特征用于回归动作边界概率，并设计多阶段视听双模态级联网络，用以捕获视频的边界信息，细化网络的逐帧动作预测；同时设计视听双模态边界回归模块计算音频特征和视频特征得到动作边界概率并对上述多阶段视听双模态级联网络的动作分类结果进行细化，捕获可靠的视频片段与正确的视频动作分类，用以缓解视频分割时的边界模糊问题，提高视频动作分割效果。权利要求书3页说明书13页附图2页 CN 115471774 A 2022.12.13 CN 115471774 A 1.基于音视频双模态特征融合的视频时域动作分割方法，其特征在于，包括以下步骤： S1：提取多媒体数据的视频特征和音频特征； S2：建立视频时域动作分割网络模型，并依据视频时域动作分割网络模型输出视频时域动作分割分类结果，所述视频时域动作分割网络模型包括多阶段视听双模态级联网络与视听双模态边界回归模块，具体步骤包括： S2‑1：将多媒体数据的音频特征融入视频特征，得到融合后的视听双模态特征，输入多阶段视听多模态级联网络中； S2‑2：基于音频特征和视频特征，通过视听双模态边界回归模块生成视听双模态边界平滑算子，通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分，并生成自注意力权重； S2‑3：将多阶段视听多模态级联网络中每个级联阶段的帧置信度得分根据自注意力权重矩阵加权求和，输入融合阶段，得到融合分类分数，根据融合分类分数输出视频时域动作分割分类结果。 2.根据权利要求1所述的视频时域动作分割方法，其特征在于，所述步骤S2 ‑2中通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分的表达式为： b′＝(bvideo+β baudio)/2；其中，为加入平滑算子后网络预测的帧置信度得分；为帧置信度得分； s为池化的方向； β 为确定不同特征贡献的模型超参数； L为长度，池化窗口的长度为2L+1；为池化窗口内帧的帧置信度得分； α 为自注意力权重的衰减率； j为池化窗口中每个方向取的元素数目； b ′t+s·j为池化窗口内的动作边界概率； att为自注意力调整单元； b ′为融合边界概率； bvideo为视频边界概率； baudio为音频边界概率。 3.根据权利要求2所述的视频时域动作分割方法，其特征在于，所述步骤S2 ‑2中自注意力权重的表达式为：其中，为多阶段视听多模态级联网络中每个级联阶段的自注意力权重； e为自然常数； ρ 为设置的帧置信度得分阈值；为时间为t，阶段为j ′时的帧置信度得分。 4.根据权利要求3所述的视频时域动作分割方法，其特征在于，所述步骤S2 ‑3中融合分权　利　要　求　书 1/3 页 2 CN 115471774 A 2类分数的表达式为：其中，为融合分类分数。 5.根据权利要求4所述的视频时域动作分割方法，其特征在于，所述步骤S2 ‑3中还包括以下步骤：通过视听双模态边界平滑算子平滑融合分类分数，其表达式如下： b′＝(bvideo+β baudio)/2；其中，为加入平滑算子后网络预测的平滑融合分类分数。 6.根据权利要求5所述的视频时域动作分割方法，其特征在于，还包括级联阶段在帧上的损失分布，表达式如下：其中，为级联阶段在帧上的损失分布； yt， c为在时间t时类别c的预测概率； t为某一时间；以及融合阶段在帧上的分类损失，表达式如下：其中，为分类损失； T为多媒体数据的总时长。 7.根据权利要求6所述的视频时域动作分割方法，其特征在于，通过视听双模态边界平滑算子平滑级联阶段的帧置信度得分和融合分类分数时的平滑损失，其表达式如下： Δt， c＝|log yt， c‑log yt‑1， c|；权　利　要　求　书 2/3 页 3 CN 115471774 A 3

专利 基于音视频双模态特征融合的视频时域动作分割方法

专利基于音视频双模态特征融合的视频时域动作分割方法