行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210757445.9 (22)申请日 2022.06.29 (71)申请人 上海交通大 学 地址 200240 上海市闵行区东川路80 0号 (72)发明人 金耀辉 邱健 王晴晴  (74)专利代理 机构 上海恒慧知识产权代理事务 所(特殊普通 合伙) 31317 专利代理师 张宁展 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/762(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多模态特征融合的证照分类方法 及系统 (57)摘要 本发明提供了一种基于多模态特征融合的 证照分类方法及系统, 该方法充分考虑证照图像 含有视觉特征、 文本语义特征、 文本位置特征等 多模态信息的特点, 充分利用多模态信息, 以及 各个模态之间的相互关系, 通过构建卷积神经网 络提取视觉特征, 转化成视觉特征向量; 根据证 照中独特的文本信息训练语言模 型, 将证照图像 中的文本转化为文本信息向量, 对 得到的视觉特 征向量和文本信息向量进行多模态融合, 既能保 留原始单模态视觉特征和文本信息, 同时也能利 用两种模态之间的相 互作用, 作为分类的依据。 本发明不仅考虑证照图像的视觉特征, 同时充分 考虑文本信息, 以及两者之间的相互关系, 从而 使得分类结果达到较高的分类准确度和更细粒 度的类别划分。 权利要求书2页 说明书6页 附图2页 CN 115115883 A 2022.09.27 CN 115115883 A 1.一种基于多模态特 征融合的证照分类方法, 其特 征在于, 包括: 多模态特征提取, 提取证照图像整体版面视觉特征、 文本内容信 息和文本位置块信 息, 并输出版面视觉特征向量和文本内容信息, 以及文本块 位置坐标信息; 文本重构, 根据不同文本块位置坐标的距离关系, 将文本块内容根据文本块位置信息 进行重构, 得到 重构后的长 本文; 训练语音模型, 根据所述的重构后的长文本作为数据集, 训练得到适应证照图像中独 有的文本语义的语言模型; 长文本向量表征, 根据所述训练得到的语言模型, 将长文本转化为固定长度的特征表 示; 多模态特征融合, 对版面视觉特征和长文本特征, 做张量外积, 显性表征单模态, 双模 态相互作用, 得到新的多维特 征向量; 利用卷积神网络对所述的多维特 征向量进行计算与分类, 得到细粒度证照分类结果。 2.根据权利要求1所述的基于多模态特 征融合的证照分类方法, 其特 征在于, 具体是: 利用卷积神经网络提取整个 证照图像版面视 觉特征信息, 得到版面视 觉特征向量; 利用光学字符识别模型提取图像中的证照文本信 息, 包括文本 内容信息和文本块位置 坐标信息; 所述文本块 位置坐标之间的距离关系如下: 其中i,j分别表示不同文本块, 若dij小于预先设定的阈值θ, 则判断文本块内文本内容 相关, 然后将文字内容信息根据对应文本块 坐标位置关系进行重构, 公式如下: tij=ti+tj 其中ti,tj为第i,j个文本块文本内容, 从而将具有键值对关系的文本聚合为长文本信 息; 根据所获的重构后的证照长文本信 息, 作为训练数据集, 结合文本语义表达, 训练得到 符合证照中语义表达的语言模型; 利用训练好的语言模型, 将所述重构长文本信息编码成固定 长度的文本特 征向量。 3.根据权利要求1所述的基于多模态特征融合的证照分类方法, 其特征在于, 所述根据 所述的版面视觉特征向量和长文本特征向量进行多模态特征融合, 获取多模态融合的多维 特征向量, 具体是: 对所述的视觉特征向量A和文本特征向量B, 用1扩充一维后, 进行张量外积, 得到多模 态融合的多维特 征向量C, 公式如下: 4.根据权利要求1所述的基于多模态特征融合的证照分类方法, 其特征在于, 所述利用 卷积神网络对所述的多维特征向量进 行计算与分类, 得到细粒度证照分类结果, 具体是: 将 所述的多维特 征向量输入卷积神经网络, 构建 分类网络; 根据空间中的不同 映射结果聚类, 对应不同的证照类别, 得到证照分类结果。 5.一种基于多模态特 征融合的证照分类系统, 其特 征在于, 包括: 多模态特征提取模块, 用于获取证照图像整体版面视觉特征、 文本内容信息和文本位权 利 要 求 书 1/2 页 2 CN 115115883 A 2置块信息, 并输出视 觉特征向量和文本内容信息, 以及文本块 位置坐标信息; 文本重构模块, 根据不同文本块位置坐标的距离关系, 将文本块内容根据文本块位置 信息进行重构, 得到 重构后的长 本文; 语言模型训练模块, 利用获取的重构后长文本, 用于训练证照图像中独有的文本语义 的语言模型; 长文本信息特征向量表示模块, 利用训练得到的语言模型将重构后的长文本, 转化成 固定长度的特 征表示; 张量外积计算模块, 将视觉特征向量和长文本特征向量做张量外积, 显性表示单模态 和双模态相互作用, 得到特 征融合后的多维特 征向量; 多模态特征信 息融合判断模块, 通过卷积神经网络, 进一步得到更多特征表征, 对得到 的融合后多维特 征向量进行信息判断, 分类得到需要判断的细粒度证照类型。 6.根据权利要求5所述的基于多模态特征融合的证照分类系统, 其特征在于, 还包括如 下任一项或任意多 项: ‑所述多模态特征提取模块和文本重构模块相连, 得到版面视觉特征向量和重构后具 有键值对关系的长文本信息; ‑所述文本重构模块和语言模型训练模块相连, 根据所获的重构后的证照长文本信 息, 作为训练数据集, 结合文本语义表达, 训练得到符合证照中语义表达的语言模型; ‑所述语言模型训练模块和长文本信息特征向量表示模块相连, 将训练得到的训练好 的适应证照图像文本语义表达的语言模型, 用于将重构后长文本转化为固定长度的特征表 示; ‑所述多模态特征提取模块、 长文本信 息特征向量表示模块与张量外积计算模块相连, 将版面视觉特征向量和长文本特征向量做张量外积, 显性表 示单模态, 双 模态相互作用, 得 到特征融合后的多维特 征向量; ‑所述张量外积计算模块与多模态特征信息融合判断模块相连, 将得到的多维特征向 量输入卷积神经网络做进一步处理, 根据 空间中的不同映射结果聚类, 对多模态特征进行 判断分类, 得到细粒度证照分类结果。权 利 要 求 书 2/2 页 3 CN 115115883 A 3

.PDF文档 专利 一种基于多模态特征融合的证照分类方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多模态特征融合的证照分类方法及系统 第 1 页 专利 一种基于多模态特征融合的证照分类方法及系统 第 2 页 专利 一种基于多模态特征融合的证照分类方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:54:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。