(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211264194.7
(22)申请日 2022.10.17
(71)申请人 广西师范大学
地址 541004 广西壮 族自治区桂林市七 星
区育才路15号
(72)发明人 雷智 陆广泉 黄之荣 姜孟齐
张文振
(74)专利代理 机构 桂林市华杰 专利商标事务所
有限责任公司 451 12
专利代理师 覃永峰
(51)Int.Cl.
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 30/18(2022.01)
G06V 30/19(2022.01)G06V 30/262(2022.01)
G06F 16/332(2019.01)
G06F 40/284(2020.01)
(54)发明名称
基于多级网状交 互模型的视 觉问答方法
(57)摘要
本发明公开了一种基于多级网状交互模型
的视觉问答方法, 包括如下步骤: 1) 特征提取阶
段; 2) 模态内信息挖掘阶段; 3) 模态间特征交互
阶段; 4) 特征融合阶段; 5) 答案 预测阶段。 这种方
法能够挖掘单个模态内的重要信息, 同时高效地
实现模态间的信息交互, 充分挖掘隐含信息。 该
方法基于多级架构, 同时利用了低层次问题信息
和高层次问题信息。 在融合阶段, 设计了一个自
适应多尺度金字塔型融合模块, 从多个维度以金
字塔型的方式自适应地聚集融合信息, 提升模型
效率。
权利要求书1页 说明书7页 附图4页
CN 115546596 A
2022.12.30
CN 115546596 A
1.基于多 级网状交 互模型的视 觉问答方法, 其特 征在于, 包括如下步骤:
1) 特征提取阶段: 特征提取阶段分为图像特征提取和问题特征提取, 对于图像特征, 使
用目标检测模 型Faster ‑RCNN来提取图像特征, 最终提取到图像特征是图像中的区域特征,
区域特征中的区域范围值为[1,100], 将目标数K确定为36, 每个区域特征的维度为2048维,
图像特征的维度表示为[36,2048]; 对于问题特征, 首先对问题语句做分词操作, 将每个分
词作为一个token, 问题中第14个token之后的词将被丢掉, 小于14个token长度的问题将用
0向量来补齐, 在这之后, 再用Glov e模型初始化问题特征编码, 初始 化问题特征编码后的问
题特征将送入LSTM网络得到最终的问题特 征, 问题特 征的维度表示 为[14,512];
2) 模态内信 息挖掘阶段: 在该阶段分别 对步骤1) 得到的图像特征和问题特征应用多头
自注意力机制, 挖掘单个模态内的关键信息; 在多头自注意力中, 每一次注意力后, 图像特
征和问题特征中的关键信息都会发生变化, 记录下问题特征每一次变化后的特征, 并将变
化后的问题特 征拼接保留起 来, 作为多 级问题特 征, 参与后续的推理;
3) 模态间特征交互阶段: 模态间特征交互阶段, 在Transformer中的自注意力机制基础
上进行更改, 提出了网状互注 意力机制, 不同于自注意力机制, 互注意力机制中的查询向量
来源于另一个模态, 而来自两个不同模态间的查询向量和键向量以点乘的方式得到两种模
态间的相似性; 网状是指在步骤2) 中得到的多级问题特征将以网状的连接方式分别与图像
特征进行互注意力操作, 并迭代多次得到最终交互后的图像特征和问题特征, 网状互注意
力机制使得模态间的特征进行信息交互, 挖掘模态间的隐含信息, 在步骤2) 得到的多级问
题特征将与图像特 征进行多次互注意操作, 并得到最终交 互后的图像特 征与问题特 征;
4) 特征融合阶段: 在融合阶段, 对于高层特征使用小维度学习能够获得更多的隐含信
息, 设计了一个 自适应多尺度金字塔型融合模块, 自适应多尺度金字塔型融合模块由多个
多层感知机、 sigmoid激活函数、 Tan激活函数和拼接操作组成, 自适应多尺度金字塔型融合
模块是从不同的特征维度上对融合特征进 行再融合的操作, 该模块将步骤3) 得到的交互后
的问题特征和图像特征首先拼接, 得到融合特征, 融合特征经过多次递减的线性层变化得
到不同维度大小的金字塔型融合特征, 对于这些不同大小的金字塔型融合特征, 对其应用
sigmoid函数得到对应的自适应算子; 最后, 再将不同维度大小的金字塔型融合特征与其对
应的自适应算子相乘, 进行特征上 的信息自适应聚合, 并将相乘后的融合特征以拼接的方
法再融合, 得到最终的融合特 征f;
5) 答案预测阶段: 对于视觉问答任务, 领域内的共识是将其视为分类任务, 在该阶段,
使用分类器来做答案预测把步骤4) 得到的融合特征f送入分类器中进行答案预测, 其中网
络模型损失函数使用交叉熵损失函数, 优化器使用Adamax 优化器。权 利 要 求 书 1/1 页
2
CN 115546596 A
2基于多级网状 交互模型的视觉问答 方法
技术领域
[0001]本发明涉及计算机视觉和自然语言两种学科领域的交叉任务, 具体是一种基于多
级网状交 互模型的视 觉问答方法。
背景技术
[0002]视觉问答是一项结合了计算机视觉和自然语言处理两种学科领域的交叉学科。 视
觉问答任务就是给定一幅图像和与图像相关的自然语言问题, 通过分别提取图像特征和问
题特征并进行多模态特征融合和推理, 模型将自动给出合理的答案。 视觉 问答可以应用于
人机交互、 医疗援助和大规模图像检索方面。 在人机交互领域中, 视觉问答技术能够辅助盲
人以语音的方式查询图像中的内容。 在医疗援助领域, 医疗数据集上 的视觉问答技术能够
辅助完成医生的专业训练, 并为远程医疗提供技 术支持。
[0003]在早期的视觉问答模型中, Malinowski等人将 提取到的图像特征和问题 特征简单
拼接起来, 把拼接的特征作为融合特征送入分类器中得到答案。 然而, 这种方法没有利用到
对于视觉 问答流程来说非常重要的模态间的特征交互。 按人脑的思维方式, 对于视觉 问答
任务, 我们首先要分别理解图像和问题内容, 抓住其中的关键区域和关键词, 并将关键区域
与关键词相对应。 再对两种模态之 间的关键信息进 行多次关注和推理, 从而得到最 终结果。
得益于注意力机制的出现, 使得视觉问答任务的准确率大幅提升。 Yang等人提出了一种叠
加的注意力模型来解决视觉 问答任务。 该模型运用注意力机制, 通过多次注意力迭代操作
能够使得模型更加关注图像中与问题相关 的区域。 Nguyen等人受其启发, 提出了一种新的
注意力机制, 使得图像和问题两种不同模态之间能够实现密集的双向交互, 提高了模型 的
效果。
[0004]上述方法相对于Malinowski等人的早期基线模型来说, 引入了注意力机制, 效果
提升了不少, 但仍存在缺点。 首先, 在完成模态间的交互 时操作过于复杂, 模型消耗资源大。
在模态交互之前, 没有充分挖掘单个模态内的 隐含信息。 在特征融合阶段, 没有从不同尺度
多角度方向上去考虑信息的聚合。
发明内容
[0005]本发明的目的在于针对现有方法中模态间的特征交互以及融合阶段存在的不足,
而提供一种基于多级网状交互模型的视觉问答方法。 这种方法能够挖掘单个模态内的重要
信息, 同时高效地实现模态间的信息交互, 充分挖掘隐含信息。 该方法基于多级架构, 同时
利用了低层次问题信息和高层次问题信息。 在融合阶段, 设计了一个 自适应多尺度金字塔
型融合模块, 从多个维度以金字塔型的方式自适应地聚集融合信息, 提升模型效率。
[0006]实现本发明目的 的技术方案是:
[0007]基于多级网状交 互模型的视 觉问答方法, 包括如下步骤:
[0008]1)特征提取阶段: 特征提取阶段分为图像特征提取和问题特征提取, 对于图像特
征, 使用目标检测模 型Faster ‑RCNN来提取图像特征, 最 终提取到图像特征是图像中的区域说 明 书 1/7 页
3
CN 115546596 A
3
专利 基于多级网状交互模型的视觉问答方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:57:40上传分享