行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211185020.1 (22)申请日 2022.09.27 (71)申请人 同济人工智能研究院 (苏州) 有限公 司 地址 215000 江苏省苏州市相城区高铁新 城青龙港路58号天成时代商务广场 29、 30层 (72)发明人 邓若愚 胡尚薇  (74)专利代理 机构 苏州见山知识产权代理事务 所(特殊普通 合伙) 32421 专利代理师 袁丽花 (51)Int.Cl. G06V 40/10(2022.01) G06V 20/52(2022.01) G06V 20/40(2022.01)G06V 10/82(2022.01) G06F 16/33(2019.01) (54)发明名称 一种文本行 人表征学习与匹配方法和系统 (57)摘要 本申请提供一种文本行人表征学习与匹配 方法和系统, 包括: 1)利用预训练的ResNet模型 为每张输入图片生成初级特征图, 并基于不同尺 度对该特征图进行切分 处理; 2)将切分后的特征 图利用Bottleneck  Transformer作为表征学习 网络对不同视觉区域进行自注意力计算; 3)通过 一个具有固定参数的预训练BERT模型学习得到 每个词嵌入; 4)将词嵌入通过一个结合了残差网 络与Transformer的混合 分支网络进行进 一步处 理; 5)借助跨模态投影匹配函数(CMPM)优化文本 与图像的表征, 从局部尺度、 中等尺度、 全局尺度 分别对齐视觉表征和文本表征; 6)利用三种尺度 结合后的表征作为最终表征以进行检索。 本发明 能够提取良好的语义信息, 准确性高、 检索速度 快。 权利要求书2页 说明书9页 附图4页 CN 115527236 A 2022.12.27 CN 115527236 A 1.一种文本行 人表征学习与匹配方法, 其特 征在于, 包括: 1)在视觉学习部分利用预训练的ResNet模型为每张输入图片生成初级特征图, 并基于 不同尺度对所述初级特 征图进行切分处 理; 2)将切分后的特征图利用Bottleneck  Transformer作为表征学习网络对不同视觉区 域进行自注意力计算; 3)在文本表征学习部分通过一个具有固定参数的预训练BERT模型学习得到每个词嵌 入; 4)将词嵌入通过一个结合了残差网络与Transformer的混合分支网络进行进一步处 理, 从而使文本表征自适应地学习匹配相应的视 觉表征; 5)通过跨模态 投影匹配函数优化文本与图像的表征, 从局部尺度、 中等尺度、 全局尺度 分别对齐视 觉表征和文本表征; 6)测试阶段利用三种尺度结合后的表征作为 最终表征以进行检索。 2.根据权利要求1所述的一种 文本行人表征学习与匹配方法, 其特征在于, 所述的步骤 1)中, 对于局部尺度采用P CB模型的策略将所述初级 特征图水平切分为多个区域; 对于中等 尺度将相 邻的两个水平区域合并成新区域作为中等尺度的特征; 对于全局尺度则直接将初 级特征图视为全局特 征。 3.根据权利要求1所述的一种 文本行人表征学习与匹配方法, 其特征在于, 所述的步骤 2)中, 将同一尺度内的多个特征图通过池化操作融合作为该尺度的最终表征, 并将所有尺 度的表征共同作为视 觉部分提取到的多尺度特 征。 4.根据权利要求1所述的一种 文本行人表征学习与匹配方法, 其特征在于, 所述的步骤 4)中, 对于局部尺度与中等尺度的分支, 采用ResNet中的Bottleneck结构通过卷积操作探 索相邻词嵌入间的信息联系, 从而为词嵌入序列学习相匹配的表征; 对于全局尺度的分支, 采用浅层的Bot tleneck Transformer结构来 提取文本内容中跨度大的语义信息 。 5.根据权利要求4所述的一种 文本行人表征学习与匹配方法, 其特征在于, 所述局部尺 度、 中等尺度、 全局尺度三个分支输出 得到的表征共同作为文本 部分提取到的多尺度特 征。 6.根据权利要求1所述的一种 文本行人表征学习与匹配方法, 其特征在于, 所述的步骤 5)中, 所述优化后的文本与图像的表征嵌入到一个统一的空间中, 在拉近模态间距离的同 时进一步增强特 征的判别性。 7.根据权利要求1所述的一种 文本行人表征学习与匹配方法, 其特征在于, 所述的步骤 6)中, 在测试阶段将双路径计算生成的局部尺度、 中等尺度、 全局尺度这三种尺度的表征进 行组合作为 最终表征, 用于文本与图像之间的检索与匹配。 8.一种文本行 人表征学习与匹配系统, 其特 征在于, 包括: 视觉学习模块, 用于利用预训练的ResNet模型为每张输入图片生成初级特征图, 并基 于不同尺度对所述初级特 征图进行切分处 理; 自注意力计算模块, 用于将切分后的特征图利用Bottleneck  Transformer作为表征学 习网络对不同视 觉区域进行自注意力计算; 文本表征学习模块, 用于通过一个具有固定参数的预训练BERT模型学习得到每个词嵌 入; 视觉表征模块, 用于将词 嵌入通过一个结合了残差网络与Transformer的混合分支网权 利 要 求 书 1/2 页 2 CN 115527236 A 2络进行进一 步处理, 从而使文本表征自适应地学习匹配相应的视 觉表征; 表征优化模块, 用于通过跨模态 投影匹配函数优化文本与图像的表征, 从局部尺度、 中 等尺度、 全局尺度分别对齐视 觉表征和文本表征; 测试模块, 用于利用三种尺度结合后的表征作为 最终表征以进行检索。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器运行所述计算机程序以实现如权利要求 1‑7任一 项所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理 器执行实现如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115527236 A 3

PDF文档 专利 一种文本行人表征学习与匹配方法和系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本行人表征学习与匹配方法和系统 第 1 页 专利 一种文本行人表征学习与匹配方法和系统 第 2 页 专利 一种文本行人表征学习与匹配方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:16:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。