行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210220533.5 (22)申请日 2022.03.08 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 徐越 周鸣 袁泽寰 卢靓妮  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 温易娜 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于图像的主体识别方法、 装置、 存储介质 及电子设备 (57)摘要 本公开涉及一种基于图像的主体识别方法、 装置、 存储介质及电子设备, 主体识别方法包括: 获取待识别图像和用于描述待识别图像中的主 体物体的物体特征, 待识别图像中包括多个候选 检测框, 每一候选检测框中包括一物体; 根据待 识别图像和物体特征, 通过预训练的主体识别模 型中的特征提取子网络, 得到候选检测框的多模 态特征; 根据候选检测框的多模态特征, 通过主 体识别模型中的分类子网络, 确定候选检测框中 的物体的分类结果, 分类结果用于表征候选检测 框中的物体为待识别图像中的主体物体或不为 所述待识别图像中的主体物体, 通过端到端的主 体识别模型基于候选检测框的多模态特征来识 别待识别图像中的主体物体 。 权利要求书2页 说明书12页 附图5页 CN 114581714 A 2022.06.03 CN 114581714 A 1.一种基于图像的主体识别方法, 其特 征在于, 所述主体识别方法包括: 获取待识别图像和用于描述所述待识别图像中的主体物体的物体特征, 所述待识别图 像中包括多个候选检测框, 每一所述 候选检测框中包括 一物体; 根据所述待识别图像和所述物体特征, 通过预训练 的主体识别模型中的特征提取子网 络, 得到所述 候选检测框的多模态特 征; 根据所述候选检测框的多模态特征, 通过所述主体识别模型中的分类子网络, 确定所 述候选检测框中的物体的分类结果, 所述分类结果用于表征所述候选检测框中的物体为所 述待识别图像中的主体物体或不 为所述待识别图像中的主体物体。 2.根据权利要求1所述的主体识别方法, 其特征在于, 所述主体识别模型还包括图卷积 子网络, 所述方法还 包括: 根据所述候选检测框的多模态特征和除所述候选检测框之外的其他候选检测框的多 模态特征, 通过所述图卷积子网络, 确定所述 候选检测框的融合特 征; 所述根据所述候选检测框的多模态特征, 通过所述主体识别模型中的分类子网络, 确 定所述候选检测框中的物体的分类结果, 包括: 根据所述候选检测框的融合特征, 通过所述主体识别模型中的分类子网络, 确定所述 候选检测框中的物体的分类结果。 3.根据权利要求2所述的主体识别方法, 其特征在于, 所述根据 所述候选检测框的多模 态特征和除所述候选检测框之外的其他候选检测框的多模态特征, 通过所述图卷积子网 络, 确定所述 候选检测框的融合特 征, 包括: 根据除所述候选检测框之外的其他候选检测框的多模态特征, 通过所述图卷积子网络 中的均值特 征计算层, 确定所述 其他候选检测框的均值特 征; 根据所述其他候选检测框的均值特征和所述候选检测框的多模态特征, 通过所述图卷 积子网络中的特 征拼接层, 确定所述 候选检测框的融合特 征。 4.根据权利要求2所述的主体识别方法, 其特征在于, 所述根据 所述待识别图像和所述 物体特征, 通过预训练的主体识别模型中的特征提取子网络, 确定所述候选检测框的多模 态特征, 包括: 根据所述待识别图像, 通过预训练 的主体识别模型中的特征提取子网络 中的视觉提取 层, 提取所述待识别图像的视 觉特征; 根据所述视觉特征, 通过所述特征提取子网络中的ROI  Pooling层, 确定与所述候选检 测框对应的视 觉特征; 根据与所述候选检测框对应的视觉特征和所述物体特征, 通过所述特征提取子网络中 的特征拼接层, 确定所述 候选检测框的多模态特 征。 5.根据权利要求2所述的主体识别方法, 其特征在于, 所述图卷积子网络包括多个, 多 个图卷积子网络串联, 相 邻两个图卷积子网络中的前一个图卷积子网络的输出作为输入到 下一个图卷积子网络中的所述候选检测框的多模态特征, 且多个图卷积子网络中的最后一 个图卷积子网络的输出作为所述 候选检测框的融合特 征。 6.根据权利要求1所述的主体识别方法, 其特征在于, 获取用于描述所述待识别图像中 的主体物体的物体特 征, 包括: 获取用于描述所述待识别图像的对应的标题文本;权 利 要 求 书 1/2 页 2 CN 114581714 A 2根据所述标题文本, 通过预训练好的文本特征提取模型, 确定与所述标题文本对应的 第一特征; 根据所述标题文本和所述待识别图像, 通过预训练好的类别特征提取模型, 确定与所 述标题文本和所述待识别图像对应的第二特 征; 根据所述第 一特征和所述第 二特征, 确定用于描述所述待识别图像中的主体物体的物 体特征。 7.根据权利要求1 ‑6中任一所述的主体识别方法, 其特征在于, 所述主体识别模型通过 以下方式训练得到: 获取样本图像和用于描述所述样本图像中的样本主体物体的样本物体特征, 所述样本 图像携带有各所述样本候选检测框对应的标签, 所述样本候选检测框的标签用于表征该样 本候选检测框中的样本物体是否属于所述样本图像中的主体样本物体; 根据所述样本图像, 对初始模型进行训练, 以得到所述主体识别模型。 8.一种基于图像的主体识别装置, 其特 征在于, 所述主体识别装置包括: 第一获取模块, 用于获取待识别图像和用于描述所述待识别图像中的主体物体的物体 特征, 所述待识别图像中包括多个候选检测框, 每一所述 候选检测框中包括 一物体; 第一确定模块, 用于根据所述待识别图像和所述物体特征, 通过预训练的主体识别模 型中的特 征提取子网络, 得到所述 候选检测框的多模态特 征; 第二确定模块, 用于根据所述候选检测框的多模态特征, 通过所述主体识别模型中的 分类子网络, 确定所述候选检测框中的物体的分类结果, 所述分类结果用于表征所述候选 检测框中的物体为所述待识别图像中的主体物体或不 为所述待识别图像中的主体物体。 9.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装置执行 时实现权利要求1 ‑7中任一项所述主体识别方法的步骤。 10.一种电子设备, 其特 征在于, 包括: 存储装置, 其上存 储有计算机程序; 处理装置, 用于执行所述存储装置 中的所述计算机程序, 以实现权利要求1 ‑7中任一项 所述主体识别方法的步骤。权 利 要 求 书 2/2 页 3 CN 114581714 A 3

.PDF文档 专利 基于图像的主体识别方法、装置、存储介质及电子设备

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于图像的主体识别方法、装置、存储介质及电子设备 第 1 页 专利 基于图像的主体识别方法、装置、存储介质及电子设备 第 2 页 专利 基于图像的主体识别方法、装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:21:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。