专利一种跨模态视频情感信息解析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211162039.4 (22)申请日 2022.09.23 (71)申请人西南交通大学地址 610031 四川省成都市二环路北一段 111号 (72)发明人杨燕　谢朱洋　王杰　刘小溶　 (74)专利代理机构成都点睛专利代理事务所 (普通合伙) 51232 专利代理师葛启函 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/16(2022.01) G10L 15/02(2006.01) G10L 15/06(2013.01) G10L 15/16(2006.01)G10L 25/63(2013.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 16/33(2019.01) (54)发明名称一种跨模态视频情感信息解析方法 (57)摘要本发明公开了一种跨模态视频情感信息解析方法，属于多媒体视频理解技术领域。其步骤包括： (1)单模态特征提取模块，即通过时序建模的方式捕获每个模态特有的语义信息； (2)不确定性估计模块，即对不同模态进行不确定建模，得到各模态的不确定分布表示； (3)不确定融合模块，即根据不确定概率融合的方式整合多模态信息，降低跨模态融合的不确定性； (4)情感分类模块，通过全连接网络层，输出最终的情感分类结果。权利要求书2页说明书6页附图1页 CN 115546685 A 2022.12.30 CN 115546685 A 1.一种跨模态视频情感信息解析方法，包括以下步骤：步骤一、对原始视频数据进行处理，提取用于模型输入的特征序列： (1)使用OpenFace工具包对视频图像进行处理，提取面部特征序列xv，每个视频图像的特征维度为20； (2)对视频中的文本数据采用预训练的BERT模型得到文本序列xt，每个单词的特征维度为768； (3)采用COVAREP工具包对视频中的音频信号提取特征序列xa，每个音频信息的特征维度为5； (4)将提取的上述三种特征序列构建数据集 X：其中， m＝v， t， a表示模态m具有v， t， a三种取值， v， t， a分别表示视频、文本、音频三种模态， Tm和Dm 分别表示来自模态m的序列长度以及特征维度； (5)将构建好的数据集X按照8 ∶ 1∶ 1进行划分，得到训练集，测试集和验证集；步骤二、构建跨模态情感预测网络模型： (1)构建单模态特征提取模块：将构建好的数据集X作为输入，通过双向长短期记忆网络biLSTM分别为所述的三种模态特征进行建模，学习每个模态内部的时序变化，将最终的状态输出用作特征表示，公式如下： hm＝biLSTM(xm， θm) 其中， xm是输入的模态m的序列特征， θm是对应的神经网络参数， hm是模态特征； (2)构建不确定性估计模块：将以上三种模态特征hm作为输入，为了实现特征对齐，采用多层感知器MLP进行特征变换，将不同维度的模态特征映射到统一的特征空间： fm＝MLP(hm， wm) 其中， wm是多层感知器的网络参数， fm是映射后的特征向量，多层感知器的隐藏层神经单元数量为128；将所述模态序列特征的数据看作从不同的高斯分布中采样得到，即其中，表示服从均值为um，方差为σm2的高斯分布。每个模态有着各自的分布， um表示均值，视为样本模态本身，而σm2表示方差，视为模态噪声，为了进行不确定性分布建模，采用两个全连接层FC1和全连接层FC2分别估计模态m的均值um和方差σm： um＝FC1(fm， w1) σm2＝FC2(fm， w2) 其中， w1和w2分别是全连接层FC1和FC2的可学习参数；尽管全连接层能够估计方差σm2，但在网络模型训练过程中，由于过小的方差σm2会导致模型退化为确定性表示；为了解决这个问题，加入了一个正则化项，通过KL散度来约束参数分布近似正态分布：其中，是由KL散度计算得到的损失， um， i表示均值um的第i个维度， D表示向量维度，设置为128；权　利　要　求　书 1/2 页 2 CN 115546685 A 2为了使估计方差σm2的分布有效地捕获各自模态的信息，通过数据重构的方式进行约束，从而最小化输入与输出之间的误差；由于采样过程不可导，引入了参数化重采样进行反向传播，具体过程如下： zm＝um+∈·σm2， ∈∈(0， I) 其中， zm表示重采样后的特征， ∈表示正态分布的采样噪声， 0和I 分别全0和全1的向量，重构损失采用绝对平均误差进行计算； (3)构建不确定融合模块：根据不确定性估计得到的分布均值um和方差σm2，执行不确定融合，首先计算图像均值uv 和图像方差σv2以及文本均值ut和文本方差σt2两个模态分布的融合，然后将融合的结果再与音频均值ua和音频方差σa2分布融合；具体过程如下：其中， uvt和σvt2是图像和文本模态融合之后的分布， uvta以及σvta2是三种模态融合得到的最终分布； (4)构建情感预测模块：在训练阶段，将得到的跨模态融合结果输入到全连接层FCreg进行情感分类，输出回归的情感分数，采用平均绝对误差作为损失函数；具体过程如下： Om＝FCreg(uvta， wclass) 其中， wclass是全连接层的网络参数， Om是预测的情感分数， gm是样本的真实情感分数，是计算得到的误差损失；步骤三、在训练集上训练优化网络模型：整体需要优化的损失函数为：步骤四、在验证集和测试集上验证和测试网络模型：在验证和测试阶段，对预测的情感分数进行切分，将分数限定在[ ‑3， 3]，按照四舍五入对情感分数取整，得到的类别：非常消极、消极、轻微消极、中性、轻微积极、积极、非常积极，具体如下： Oclass＝round(Om) 其中，函数round()为取整操作， Oclass是取整后的结果，表示网络模型最终预测的类别。权　利　要　求　书 2/2 页 3 CN 115546685 A 3

专利 一种跨模态视频情感信息解析方法

专利一种跨模态视频情感信息解析方法