行业标准网
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211118290.0 (22)申请日 2022.09.15 (65)同一申请的已公布的文献号 申请公布号 CN 115203442 A (43)申请公布日 2022.10.18 (73)专利权人 中国海洋大学 地址 266000 山东省青岛市崂山区松岭路 238号 (72)发明人 黄磊 王瑞学 魏志强 韩晓蕊  (74)专利代理 机构 青岛华慧泽专利代理事务所 (普通合伙) 37247 专利代理师 赵梅 (51)Int.Cl. G06F 16/43(2019.01) G06F 16/48(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (56)对比文件 CN 112817914 A,2021.0 5.18 WO 2022155994 A1,202 2.07.28 审查员 刘媛 (54)发明名称 基于联合注意力的跨模态深度 哈希检索方 法、 系统及 介质 (57)摘要 本发明属于图像处理技术领域, 公开了基于 联合注意力的跨模态深度哈希检索方法、 系统及 介质, 本发 明通过构建基于联合注 意力的跨模态 深度哈希检索网络, 对于输入的图像和文本, 一 方面提取多尺度融合图像特征, 另一方面提取多 尺度融合文本特征, 然后分别利用图像模态和文 本模态的多注意力矩 阵过滤边缘特征并强化核 心特征, 并利用联合多注意力矩阵联合不同模态 的特征生 成综合多模态信息的细粒度重构特征, 从而实现特征对齐, 更好地消除语义差异, 提升 跨模态检索的准确率。 权利要求书5页 说明书13页 附图1页 CN 115203442 B 2022.12.20 CN 115203442 B 1.基于联合注意力的跨模态深度哈希检索方法, 其特 征在于, 包括以下步骤: 步骤1、 获取待检索的图像和文本; 步骤2、 获取包 含M个图像和M个文本的数据集; 步骤3、 将步骤2获取的图像和文本数据集输入预先构建的基于联合注意力的跨模态深 度哈希检索网络, 提取多尺度融合图像特 征 和多尺度融合文本特征 , 然后分别利用图 像模态和文本模态的多注意力矩阵过滤边缘特征并强化核心特征, 并利用联合多注意力矩 阵联合不同模态的特征生成综合多模态信息的细粒度重构特征, 使用细粒度重构特征构建 图像模态哈希码和文本模态哈希码, 构造图像模态相似矩阵、 文本模态相似矩阵以及联合 模态相似矩阵, 分别用于表示图像特征、 文本特征和两者之间的余弦相似性关系; 利用特征 提取得到的图像和文本的细粒度特征和细粒度重构特征构建特征重构损失 , 利用不同 模态的哈希相似矩阵和特征相似矩阵构建相似性对齐损失 , 迭代上述过程, 训练网络参 数; 其中, 所述的基于联合注意力的跨模态深度哈希检索网络包括基于多尺度融合和双线 性池化的特征提取模块以及多注意力模块, 所述基于多尺度融合和双线性池化的特征提取 模块包括两个分支, 分别是图像特征提取网络和文本特征提取网络, 分别用于图像模态和 文本模态的特 征提取; 所述图像特征提取网络包括图像多尺度融合模型和双线性细粒度 特征提取模块, 将图 像样本输入图像多尺度融合模型, 通过多个池化层提取多尺度图像特征, 然后再经过降维、 上采样、 特征拼接获得融合图像特征, 并将融合图像特征输入到双线性细粒度特征提取模 块, 获得细粒度图像特 征, 最后输入 全连接层获得最终的多尺度融合图像特 征 ; 所述文本特征提取网络包括文本多尺度融合模型和三层前馈神经网络, 将文本样本输 入文本多尺度融合模型, 通过不同大小的池化层提取不同尺度的文本特征、 然后再经过降 维、 上采样、 特征拼接获得融合文本特征, 将 融合文本特征输入三层前馈神经网络中, 获得 最终的多尺度融合文本特 征 ; 其中, 重构细粒度特 征的具体步骤如下: 步骤3.1、 构建图像多注意力特 征; 首先, 获取多尺度融合图像特征 的第i个图像的特征向量 , 与图像特征向量 的 转置 进行矩阵乘 法操作, 得到第 i个图像样本的图像特征矩阵, 其中, , 表示转置操作; 然后, 对图像特征矩阵进行归一化, 并使用 softmax函数生成图像多注意力矩阵 ; 第i 个图像的图像多注意力矩阵 计算公式如下: 其中, 为归一化参数, 为归一化指数函数; 最后, 将图像特征向量 与图像多注意力矩阵 相乘, 得到模态特定的细粒度图像特权 利 要 求 书 1/5 页 2 CN 115203442 B 2征 , 具体公式如下 所示: 步骤3.2、 构建文本多注意力特 征; 首先, 获取多尺度融合文本特征 的第j个文本的特征向量 , 与文本特征向量 的 转置 进行矩阵乘法操作, 得到第j个文本样本的文本特 征矩阵, 其中, ; 然后, 对文本特征矩阵进行归一化, 并使用 softmax函数生成文本多注意力矩阵 , 第j 个图像的文本多注意力矩阵 计算公式如下: 其中, 为归一化参数, 为归一化指数函数; 最后, 将文本特征 向量 与文本多注意力矩阵 相乘, 得到模态特定的细粒度文本特 征 , 具体公式如下 所示: 步骤3.3、 构建联合多注意力特 征; 首先, 将图像特征向量 和文本特征向量 的转置 进行矩阵乘法操作, 得到联合 特征矩阵; 然后, 对联合特征矩阵进行归一化, 并使用 softmax函数生成联合多注意力 矩阵 , 第 i个图像和第j个文本的联合多注意力矩阵 计算公式如下: 其中, 为归一化参数, 为归一化指数函数; 将联合多注意力矩阵 与对应的图像特征向量 和文本特征向量 相乘以获取具 有联合注意力的图像特 征 和文本特 征 , 具体计算公式如下 所示; 权 利 要 求 书 2/5 页 3 CN 115203442 B 3

.PDF文档 专利 基于联合注意力的跨模态深度哈希检索方法、系统及介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于联合注意力的跨模态深度哈希检索方法、系统及介质 第 1 页 专利 基于联合注意力的跨模态深度哈希检索方法、系统及介质 第 2 页 专利 基于联合注意力的跨模态深度哈希检索方法、系统及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:57:59上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。