行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211162039.4 (22)申请日 2022.09.23 (71)申请人 西南交通大 学 地址 610031 四川省成 都市二环路北一段 111号 (72)发明人 杨燕 谢朱洋 王杰 刘小溶  (74)专利代理 机构 成都点睛专利代理事务所 (普通合伙) 51232 专利代理师 葛启函 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/16(2022.01) G10L 15/02(2006.01) G10L 15/06(2013.01) G10L 15/16(2006.01)G10L 25/63(2013.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 16/33(2019.01) (54)发明名称 一种跨模态视频情感信息解析方法 (57)摘要 本发明公开了一种跨模态视频情感信息解 析方法, 属于多媒体视频理解技术领域。 其步骤 包括: (1)单模态特征提取模块, 即通过时序建模 的方式捕获每个模态特有的语义信息; (2)不确 定性估计模块, 即对不同模态进行不确定建模, 得到各模态的不确定分布表示; (3)不确定融合 模块, 即根据不确定概率融合的方式整合多模态 信息, 降低跨模态融合的不确定性; (4)情感分类 模块, 通过全连接网络层, 输出最终的情感分类 结果。 权利要求书2页 说明书6页 附图1页 CN 115546685 A 2022.12.30 CN 115546685 A 1.一种跨模态视频情感信息解析 方法, 包括以下步骤: 步骤一、 对原 始视频数据进行处 理, 提取用于模型输入的特 征序列: (1)使用OpenFace工具包对视频图像进行处理, 提取面部特征序列xv, 每个视频图像的 特征维度为20; (2)对视频中的文本 数据采用预训练的BERT模型得到文本序列xt, 每个单词的特征 维度 为768; (3)采用COVAREP工具包对视频中的音频信 号提取特征序列xa, 每个音频信息的特征维 度为5; (4)将提取的上述三种特征序列构建数据集 X: 其中, m=v, t, a表示模态m具有v, t, a三种取值, v, t, a分别表示视频、 文本、 音频三种模态, Tm和Dm 分别表示 来自模态m的序列长度以及特 征维度; (5)将构建好的数据集X按照8 ∶ 1∶ 1进行划分, 得到训练集, 测试集和验证集; 步骤二、 构建跨模态情感预测网络模型: (1)构建单模态特征提取模块: 将构建好的数据集X作为输入, 通过双向长短期记忆网 络biLSTM分别为所述的三种模态特征进行建模, 学习每个模态内部的时序变化, 将最终的 状态输出用作特 征表示, 公式如下: hm=biLSTM(xm, θm) 其中, xm是输入的模态m的序列特 征, θm是对应的神经网络参数, hm是模态特 征; (2)构建不确定性估计模块: 将以上三种模态特征hm作为输入, 为了实现特征对齐, 采用多层感知器MLP进行特征变 换, 将不同维度的模态特 征映射到统一的特 征空间: fm=MLP(hm, wm) 其中, wm是多层感知器的网络参数, fm是映射后的特征向量, 多层感知器的隐藏层神 经 单元数量为128; 将所述模态序列特征的数据看作从不同的高斯分布中采样得到, 即 其 中, 表示服从均值为um, 方差为σm2的高斯分布。 每个模态有着各自的分布, um表 示均值, 视 为样本模态本身, 而σm2表示方差, 视为模态噪声, 为了进行不确定 性分布建模, 采 用两个全连接层FC1和全连接层FC2分别估计模态m的均值um和方差σm: um=FC1(fm, w1) σm2=FC2(fm, w2) 其中, w1和w2分别是全连接层FC1和FC2的可学习参数; 尽管全连接层能够估计方差σm2, 但在网络模型训练过程中, 由于过小的方差σm2会导致 模型退化为确定性表示; 为了解决这个问题, 加入了一个正则化项, 通过KL散度来约束参数 分布近似正态分布: 其中, 是由KL散度计算得到的损失, um, i表示均值um的第i个维度, D表示向量维度, 设 置为128;权 利 要 求 书 1/2 页 2 CN 115546685 A 2为了使估计方差σm2的分布有效地捕获各自模态的信息, 通过数据重构的方式进行约 束, 从而最小化输入与输出之间的误差; 由于采样过程不可导, 引入了参数化重采样进行反 向传播, 具体过程如下: zm=um+∈·σm2, ∈∈(0, I) 其中, zm表示重采样后的特征, ∈表示正态分布的采样噪声, 0和I 分别全0和全1的向量, 重构损失 采用绝对平均误差进行计算; (3)构建不确定融合模块: 根据不确定性估计得到的分布均值um和方差σm2, 执行不确定融合, 首先计算图像均值uv 和图像方差σv2以及文本均值ut和文本方差σt2两个模态分布的融合, 然后将融合的结果 再与 音频均值ua和音频方差σa2分布融合; 具体过程如下: 其中, uvt和σvt2是图像和文本模态融合之后的分布, uvta以及σvta2是三种模态融合得到 的最终分布; (4)构建情感预测模块: 在训练阶段, 将得到的跨模态融合结果输入到全连接层FCreg进行情感分类, 输出回归 的情感分数, 采用平均绝对误差作为损失函数; 具体过程如下: Om=FCreg(uvta, wclass) 其中, wclass是全连接层的网络参数, Om是预测的情感分数, gm是样本的真实情感分数, 是计算得到的误差损失; 步骤三、 在训练集上训练优化网络模型: 整体需要优化的损失函数为: 步骤四、 在验证集和 测试集上验证和 测试网络模型: 在验证和测试阶段, 对预测的情 感分数进行切分, 将分数限定在[ ‑3, 3], 按照四舍五入 对情感分数取整, 得到的类别: 非常消极、 消极、 轻微消极、 中性、 轻微积极、 积极、 非常积极, 具体如下: Oclass=round(Om) 其中, 函数round()为取整操作, Oclass是取整后的结果, 表示网络模型最终预测的类别。权 利 要 求 书 2/2 页 3 CN 115546685 A 3

.PDF文档 专利 一种跨模态视频情感信息解析方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种跨模态视频情感信息解析方法 第 1 页 专利 一种跨模态视频情感信息解析方法 第 2 页 专利 一种跨模态视频情感信息解析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:18:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。