行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211191214.2 (22)申请日 2022.09.28 (71)申请人 清华大学 地址 100084 北京市海淀区清华园1号 (72)发明人 丁贵广 项刘宇  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 苟冬梅 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 弱监督定位数据增强的多标签长尾分布识 别方法及产品 (57)摘要 本申请实施例涉及 多标签识别领域, 提供了 一种弱监督定位数据增强的多标签长尾分布识 别方法及产品, 包括: 将输入图像和输入图像对 应的所有候选框输入优化后的弱监督深度定位 网络, 得到输入图像的检测框, 所述输入图像的 检测框为输入图像对应类别的最优候选框; 将所 述输入图像中尾部类别的输入图像的检测框进 行复制, 并粘贴到同一批次另一输入图像中的随 机位置, 得到数据增强的输入图像, 所述数据增 强的数据图像用于训练多 标签分类神经网络。 本 申请提升了尾部类别在输入图像集中存在的数 量, 从而缓解了长尾分布的语义不均衡问题, 用 其作为数据增强的输入图像对分类神经网络进 行训练, 提升了分类神经网络在长尾 分布下的多 标签识别场景的性能。 权利要求书2页 说明书11页 附图3页 CN 115496967 A 2022.12.20 CN 115496967 A 1.一种弱监 督定位数据增强的多标签长尾分布 识别方法, 其特 征在于, 包括: 将输入图像和输入图像对应的所有候选框输入优化后的弱监督深度定位网络, 得到输 入图像的检测框, 所述输入图像的检测框为输入图像对应 类别的最优候选 框; 将所述输入图像中尾部类别的输入图像的检测框进行复制, 并粘贴到同一批次另一输 入图像中的随机位置, 得到数据增强的输入图像, 所述数据增强的数据图像用于训练多标 签分类神经网络 。 2.根据权利要求1所述的弱监督定位数据增强的多标签长尾分布识别方法, 其特征在 于, 得到数据增强的输入图像之后, 包括: 将所述图像增强的输入图像作为训练数据对多标签分类神经网络进行训练; 获取所述输入图像的置信度中尾部类别的输入图像的置信度, 所述输入图像的置信度 为将输入图像和输入图像对应的所有候选框输入优化后的弱监督深度定位网络得到的输 入图像的检测框的对应的最优得分; 将所述尾部类别的输入图像的置信度作为多标签分类神经网络的损失函数的权重, 对 所述多标签分类神经网络的损失函数进行优化, 得到优化的多标签分类神经网络的损失函 数; 通过所述优化的多标签分类神经网络的损失函数, 对所述多标签分类神经网络的参数 进行训练优化, 得到优化后的多标签分类神经网络 。 3.根据权利要求1所述的弱监督定位数据增强的多标签长尾分布识别方法, 其特征在 于, 将输入图像和输入图像对应的所有候选框输入优化后的弱监督深度定位网络, 得到输 入图像的检测框, 包括: 对输入图像进行处 理, 得到输入图像对应的所有候选 框; 将输入图像对应的每个候选框输入初始化的弱监督深度定位网络中预训练的子神经 网络, 得到每 个候选框的分类输出和每 个候选框的检测输出; 对所述每个候选框的分类输出和所述每个候选框的检测输出进行计算, 得到每个候选 框的分类得分和每 个候选框的检测得分; 根据所述每个候选框的分类得分和所述每个候选框的检测得分, 计算每个候选框的得 分; 将所有候选 框的得分相加, 并计算弱监 督深度定位损失函数; 通过优化所述计算弱监督深度定位损失函数, 对所述初始化的弱监督深度定位网络的 参数进行训练优化, 得到优化后的弱监 督深度定位网络; 将输入图像集中的所有输入图像输入所述优化后的弱监督深度定位网络, 得到每张输 入图像的检测框以及每张输入图像的置信度, 所述每张输入图像的检测框为每张输入图像 对应类别的最优候选框, 所述每张输入图像的置信度为每张输入图像的检测框的最优得 分。 4.根据权利要求1所述的弱监督定位数据增强的多标签长尾分布识别方法, 其特征在 于, 将所述输入图像中尾部类别的输入图像的检测框进行复制, 并粘贴到同一批次另一输 入图像中的随机位置, 得到数据增强的输入图像, 包括: 获取输入图像 中尾部类别的输入图像作为第 一输入图像, 选取第 一输入图像的检测框 进行复制;权 利 要 求 书 1/2 页 2 CN 115496967 A 2随机选取同一批次中的另一输入图像作为第 二输入图像, 将复制的第 一输入图像的检 测框粘贴覆盖 至第二输入图像中的随机位置; 将所述第一输入图像的检测框的类别和位置添加至所述第 二输入图像的标注中, 得到 所述数据增强的输入图像。 5.根据权利要求3所述的弱监督定位数据增强的多标签长尾分布识别方法, 其特征在 于, 对所述每个候选框的分类输出和所述每个候选框的检测输出进行计算, 得到每个候选 框的分类得分和每 个候选框的检测得分, 按照如下公式进行计算: 其中, r为一个候选框, c为一个候选框的类别, f(c,r)为候选框r属于类别c的分类输 出, g(c,r)为候选框r属于类别c的检测输出; s(r|c)为候选框r的分类得分, s(c|r)为候选 框r的检测得分。 6.根据权利要求4所述的弱监督定位数据增强的多标签长尾分布识别方法, 其特征在 于, 将复制的第一输入图像的检测框粘贴覆盖 至第二输入图像中的随机位置, 包括: 生成第二输入图像中的随机位置; 判断所述第二输入图像中的随机位置是否包 含第二输入图像的检测框; 若所述第二输入图像中的随机位置包含所述第二输入图像的检测框的面积占比超过 预设阈值, 则重新生成新的第二输入图像中的随机位置, 直至所述第二输入图像中的随机 位置包含所述第二输入图像的检测框的面积占比未超过 预设阈值; 将所述复制的第一输入图像的检测框粘贴覆盖 至所述第二输入图像中的随机位置 。 7.一种弱监 督定位数据增强的多标签长尾分布 识别装置, 其特 征在于, 包括: 弱监督定位模块, 用于将输入图像和输入图像对应的所有候选框输入优化后的弱监督 深度定位网络, 得到输入图像的检测框, 所述输入图像的检测框为输入图像对应类别的最 优候选框; 数据增强模块, 用于将所述输入图像中尾部类别的输入图像的检测框进行复制, 并粘 贴到同一批次另一输入图像中的随机位置, 得到数据增强的输入图像, 所述数据增强的数 据图像用于训练多标签分类神经网络 。 8.一种电子设备, 其特征在于, 包括存储器、 处理器及存储在存储器上的计算机程序, 所述处理器执行所述计算机程序以实现权利要求 1‑6中任一所述的弱监督定位数据增强的 多标签长尾分布 识别方法中的步骤。 9.一种计算机可读存储介质, 其上存储有计算机程序/指令, 其特征在于, 该计算机程 序/指令被处理器执行时实现权利要求1 ‑6中任一所述的弱监督定位数据增强的多标签长 尾分布识别方法中的步骤。 10.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 该计算机程序/指令被 处理器执行时实现权利要求 1‑6中任一所述的弱监督定位数据增强的多标签长尾 分布识别 方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115496967 A 3

PDF文档 专利 弱监督定位数据增强的多标签长尾分布识别方法及产品

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 弱监督定位数据增强的多标签长尾分布识别方法及产品 第 1 页 专利 弱监督定位数据增强的多标签长尾分布识别方法及产品 第 2 页 专利 弱监督定位数据增强的多标签长尾分布识别方法及产品 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。