行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210106236.8 (22)申请日 2022.01.28 (71)申请人 上海对外经贸大 学 地址 201620 上海市徐汇区古 北路620号 申请人 华东师范大学 (72)发明人 刘峰 李知函 齐佳音 周爱民  李志斌  (74)专利代理 机构 无锡市汇诚永信专利代理事 务所(普通 合伙) 32260 专利代理师 郭慧 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多模语音信息互补与门控制的情绪识 别方法 (57)摘要 本发明提供的基于多模语音信息互补与门 控制的情绪识别方法, 属于多模态情绪识别技术 领域, 包括以下步骤: S1提取目标视频中的音频 特征与文本 特征; S2对音频特征与文本特征进行 特征双向融合; S3通过可学习门控制机制调节S2 中的双向融合的结果中融合表征的比例, 并输 出; S4对S3中可学习门控制机制的输出进行拼 接, 最终获得情绪类别输出。 本发明将门控机制 应用于交叉注 意力模块, 以决定是保留源模态信 息还是覆盖目标模态信息, 调节源模态信息和目 标模态信息的比例, 从而平衡了识别的准确率与 模型的参数量。 权利要求书1页 说明书4页 附图1页 CN 114494969 A 2022.05.13 CN 114494969 A 1.基于多模语音信息互补与门控制的情绪识别方法, 其特 征在于, 包括以下步骤: S1提取目标视频中的音频 特征与文本特 征; S2对音频 特征与文本特 征进行特征双向融合; S3通过可学习门控制机制调节所述S2中的双向融合的结果中融合表征的比例, 并输 出; S4对所述S3中可 学习门控制机制的输出进行拼接, 最终 获得情绪类别输出。 2.如权利要求1所述的基于多模语音信 息互补与门控制的情绪识别方法, 其特征在于, 所述S2包括: 以文本特征为源模态, 以音频特征为目标模态, 则文本特征为第一原始模态表征, 通过 Transformer交叉注意力机制将文本特 征和音频 特征进行融合, 得到第一融合表征; 以音频特征为源模态, 以文本特征为目标模态, 则音频特征为第二原始模态表征, 通过 Transformer交叉注意力机制将音频 特征和文本特 征进行融合, 得到第二融合表征。 3.如权利要求1所述的基于多模语音信 息互补与门控制的情绪识别方法, 其特征在于, 所述S2包括: 以文本特 征为源模态, 以音频 特征为目标模态, 则文本特 征为第一原 始模态表征; 通过Transformer交叉注意力机制将文本特征和音频特征进行融合; 并通过残差模块 进行跨层连接和归一 化, 得到第一中间融合表征; 通过全连接层与归一 化对第一中间融合表征进行增强得到第一融合表征; 以音频特征为源模态, 以文本特 征为目标模态, 则音频 特征为第二原 始模态表征; 通过Transformer交叉注意力机制将音频特征和文本特征进行融合; 并通过残差模块 进行跨层连接和归一 化, 得到第二中间融合表征; 通过全连接层与归一 化对第二中间融合表征进行增强得到第二融合表征。 4.如权利要求2或3所述的基于多模语音信 息互补与门控制的情绪识别方法, 其特征在 于, 所述S3为: 通过可学习门控制机制分别将第一融合表征和第一原始模态表征按比例融合得到第 一中间输出, 将第二融合表征和第二原 始模态表征按比例融合得到第二中间输出。 5.如权利要求4所述的基于多模语音信 息互补与门控制的情绪识别方法, 其特征在于, 所述S4为: 将第一中间输出和第二中间输出进行拼接, 最终 获得情绪类别输出。 6.如权利要求1所述的基于多模语音信 息互补与门控制的情绪识别方法, 其特征在于, 所述方法部署至公开数据集C MU‑MOSEI上, 在训练过程中使用Adam优化器进行优化。权 利 要 求 书 1/1 页 2 CN 114494969 A 2基于多模语音信息互补与门控制的情绪识别方 法 技术领域 [0001]本发明涉及多模态情绪识别技术领域, 尤其涉及 一种基于多模语音信息互补与门 控制的情绪识别方法。 背景技术 [0002]情感在人际交流中起着关键作用, 不仅语言信息, 而且声音信息也传达了个人的 情感状态。 在许多领域, 如人机交互、 医疗保健和认知科学, 都非常重视开发工具来识别人 的声音表达中的情感。 最近深度学习的蓬勃发展也促进了情感识别的发展, 此外应用的需 求推动了高性能的轻量级模型的发展。 [0003]现有许多工作都基于纯音频的特征来提高语音情感识别的性能。 基于LLDs的表征 被深度学习网络所提取, 如卷积神经网络(CNN), 循环神经网络(RNN)等。 一些变体模块结 构, 如CNN‑LSTM, 也被用在这 一领域以提取 特征序列和捕捉时间依赖性。 [0004]然而, 语言信息和声音信息对于情感识别来说同等重要。 因此, 为了完成多模态情 感识别的任务, 文本模态和音频模态都应该被考虑在内。 对于音 频模态, 特征提取的过程类 似于单模态语音情感识别的过程。 对于文本模式, 通常会使用像GloVe这样的词嵌入模型。 让多模态情感识别比单模态情感识别更具挑战性的是模态融合的过程。 一些早期的工作将 不同的特征合并为深度神经网络的输入, 为了在更深的层次上融合模式, Transformer架构 被广泛应用使得 学习到的模态融合表征 得到加强。 [0005]尽管之前的工作做了改进, 但很少考虑模态融合表征的比例与平衡的问题。 发明内容 [0006]本发明的技术问题是提供一种基于多模语音信息 互补与门控制的情绪识别方法, 能够调节模态融合表征的比例, 实现情绪识别准确率和模型参数量的平衡。 [0007]为实现上述目的, 本发明采取的技 术方案为: [0008]基于多模语音信息互补与门控制的情绪识别方法, 包括以下步骤: S1提取目标视 频中的音频特征与文本特征; S2对音频特征与文本特征进行特征双向融合; S3通过可学习 门控制机制调节S2 中的双向融合的结果中融合表征的比例, 并输出; S4对S3中可学习门控 制机制的输出进行拼接, 最终 获得情绪类别输出。 [0009]S2包括: 以文本特征为源模态, 以音频特征为目标模态, 则文本特征为第一原始模 态表征, 通过Transformer交叉注 意力机制将文本特征和音频特征进行融合, 得到第一融合 表征; 以音频特征为源模态, 以文本特征为 目标模态, 则音频特征为第二原始模态表征, 通 过Transformer交叉注意力机制将音频 特征和文本特 征进行融合, 得到第二融合表征。 [0010]S2包括: 以文本特征为源模态, 以音频特征为目标模态, 则文本特征为第一原始模 态表征; 通过Transformer交叉注 意力机制将文本特征和音频特征进行融合; 并通过残差模 块进行跨层连接和归一化, 得到第一中间融合表征; 通过全连接层与归一化对第一中间融 合表征进 行增强得到第一融合表征; 以音 频特征为源模态, 以文本特征为目标模态, 则音频说 明 书 1/4 页 3 CN 114494969 A 3

.PDF文档 专利 基于多模语音信息互补与门控制的情绪识别方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多模语音信息互补与门控制的情绪识别方法 第 1 页 专利 基于多模语音信息互补与门控制的情绪识别方法 第 2 页 专利 基于多模语音信息互补与门控制的情绪识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:21:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。