行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210449093.0 (22)申请日 2022.04.26 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 陈松 张滨 王云浩  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/25(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 预训练模 型生成方法和装置、 目标检测方法 和装置 (57)摘要 本公开提供了一种预训练模型生成方法和 装置, 涉及人工智 能技术领域, 具体涉及深度学 习、 图像处理、 计算机视觉等技术领域, 可应用于 OCR等场景。 具体实现方案为: 对获取的样本图像 进行处理, 得到不同视角下的第一图像和第二图 像; 将第一图像和第二图像输入在线网络进行特 征提取, 得到第一图像上目标候选区域的第一特 征向量集合和第二图像上目标候选区域的第二 特征向量集合; 将第二图像输入目标网络进行特 征预测, 得到第二图像上目标候选区域的第三特 征向量集合; 计算所有目标候选区域的总体对比 学习损失; 根据总体对比学习损失, 训练在线网 络和目标网络, 得到对应在线网络的预训练模 型。 该实施方式提高了预训练模型生成的准确 性。 权利要求书4页 说明书15页 附图4页 CN 114898111 A 2022.08.12 CN 114898111 A 1.一种预训练模型生成方法, 所述方法包括: 对获取的样本 图像进行处理, 得到不同视角下的第一图像和第二图像, 所述样本 图像 上具有至少两个目标候选区域, 每 个目标候选区域对应一个目标; 将所述第一图像和所述第 二图像输入在线网络进行特征提取, 得到所述第 一图像上目 标候选区域的第一特 征向量集合和所述第二图像上目标候选区域的第二特 征向量集合; 将所述第二图像输入目标网络进行特征预测, 得到所述第 二图像上目标候选区域的第 三特征向量集合, 所述目标网络、 所述在线网络均包括相同的骨架网络; 基于以下至少一项计算所有目标候选区域的总体对比学习损失: 所述第 一特征向量集 合、 所述第三特 征向量集合、 所述第二特 征向量集合; 根据所述总体对比学习损 失, 训练所述在线网络和所述目标网络, 得到对应所述在线 网络的预训练模型。 2.根据权利要求1所述的方法, 其中, 所述对获取的样本 图像进行处理, 得到不同视角 下的第一图像和第二图像, 包括: 采用选择性搜索算法对获取的样本图像进行处理, 得到具有至少两个目标候选区域的 输入图像; 将所述输入图像缩放到预设大小, 得到所述第一图像; 在预设尺度范围内, 对所述第 一图像进行裁剪, 并缩放到所述预设大小, 得到所述第二 图像。 3.根据权利要求2所述的方法, 其中, 所述第 二图像包括不同视角下的第 一子图和第 二 子图; 所述在预设尺度 范围内, 对所述第 一图像进行裁剪, 并缩放到所述预设大小, 得到所述 第二图像, 包括: 在预设尺度范围内, 对所述第 一图像进行裁剪, 并缩放到所述预设大小, 得到所述第一 子图; 对所述第一子图进行 下采样, 得到所述第二子图。 4.根据权利要求1所述的方法, 其中, 所述基于以下至少一项计算所有目标候选区域的 总体对比学习损失: 所述第一特征向量集合、 所述第三特征向量集合、 所述第二特征向量集 合, 包括: 针对所有目标候选区域中的各个目标候选区域, 将所述第 一图像中各个目标候选区域 的第一特征向量分别与所述第二图像的所有目标候选区域的第二特征向量进 行对比学习, 计算得到所有目标候选区域的负 样本对比损失; 针对所有目标候选区域中的各个目标候选区域, 将所述第 一图像中各个目标候选区域 的第一特征向量与该目标候选区域的第三特征向量进 行对比学习, 计算得到所有目标候选 区域的正样本对比损失; 根据所述 正样本对比损失和所述负 样本对比损失, 计算得到所述总体对比学习损失。 5.根据权利要求1所述的方法, 其中, 所述第 二图像包括不同视角下的第 一子图和第 二 子图, 所述第二特征向量集合包括: 第一子图的第四特征向量集合和第二子图的第 五特征 向量集合, 所述第三特征向量集合包括: 第一子图的第六特征向量集合和第二子图的第七 特征向量集合;权 利 要 求 书 1/4 页 2 CN 114898111 A 2所述基于以下至少一项计算所有目标候选区域的总体对比学习损失: 所述第 一特征向 量集合、 所述第三特 征向量集合、 所述第二特 征向量集合, 包括: 针对所有目标候选区域中的各个目标候选区域, 将所述第 一图像中各个目标候选区域 的第一特征向量分别与所述第一子图的所有目标候选区域的第四特征向量进 行对比学习, 计算得到所有目标候选区域的第一负 样本对比损失; 针对所有目标候选区域中的各个目标候选区域, 将所述第 一图像中各个目标候选区域 的第一特征向量分别与所述第二子图的所有目标候选区域的第五特征向量进 行对比学习, 计算得到所有目标候选区域的第二负 样本对比损失; 针对所有目标候选区域中的各个目标候选区域, 将所述第 一图像中各个目标候选区域 的第一特征向量与该目标候选区域的第六特征向量进 行对比学习, 计算得到所有目标候选 区域的第一 正样本对比损失; 针对所有目标候选区域中的各个目标候选区域, 将所述第 一图像中各个目标候选区域 的第一特征向量与该目标候选区域的第七特征向量进 行对比学习, 计算得到所有目标候选 区域的第二 正样本对比损失; 根据所述第一正样本对比损 失、 所述第二正样本对比损 失、 所述第一负样本对比损 失 和所述第二负 样本对比损失, 计算得到所有目标候选区域的总体对比学习损失。 6.根据权利要求1所述的方法, 其中, 所述根据所述总体对比学习损 失, 训练所述在线 网络和所述目标网络, 包括: 根据所述总体对比学习损失, 计算预训练模型损失值; 根据所述预训练模型损失值 生成所述在线网络的参数; 根据所述在线网络的参数以指数移动平均值的方式更新所述目标网络的参数。 7.一种目标检测方法, 所述方法包括: 获取待检测图像; 将所述待检测图像输入采用权利要求1 ‑6任一项所述的方法生成的预训练模型中, 得 到所述待检测图像的目标检测结果。 8.一种目标检测模型训练方法, 所述方法包括: 接收目标检测任务; 基于权利要求1 ‑6任一项所述的方法生成的预训练模型, 训练得到与所述目标检测任 务对应的目标检测模型。 9.一种预训练模型生成装置, 所述装置包括: 处理单元, 被配置成对获取的样本 图像进行处理, 得到不同视角下的第一图像和第二 图像, 所述样本图像上 具有至少两个目标候选区域, 每 个目标候选区域对应一个目标; 在线检测单元, 被配置成将所述第一图像和所述第二图像输入在线网络进行特征提 取, 得到所述第一图像上目标候选区域的第一特征向量集合和所述第二图像上目标候选区 域的第二特 征向量集合; 目标检测单元, 被配置成将所述第二图像输入目标网络进行特征预测, 得到所述第二 图像上目标候选区域的第三特征向量集合, 所述 目标网络、 所述在线网络均包括相同的骨 架网络; 计算单元, 被配置成基于以下至少一项计算所有目标候选区域的总体对比学习损 失:权 利 要 求 书 2/4 页 3 CN 114898111 A 3

PDF文档 专利 预训练模型生成方法和装置、目标检测方法和装置

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 预训练模型生成方法和装置、目标检测方法和装置 第 1 页 专利 预训练模型生成方法和装置、目标检测方法和装置 第 2 页 专利 预训练模型生成方法和装置、目标检测方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。