行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210963972.5 (22)申请日 2022.08.11 (71)申请人 创新奇智 (南京) 科技有限公司 地址 211000 江苏省南京市江宁经济技 术 开发区兴智路6号兴智科技园B栋第19 层 (72)发明人 高浩  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 戚海洋 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/762(2022.01) G06V 10/46(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) (54)发明名称 一种获取视觉属性信息的方法、 装置、 介质 及电子设备 (57)摘要 本申请实施例提供一种获取视觉属性信息 的方法、 装置、 介质及电子设备, 所述方法包括: 获取待识别图像; 将所述待识别图像输入目标属 性信息提取模 型, 并通过所述目标属性信息提取 模型得到至少一种视觉属性信息, 其中, 所述目 标属性信息提取模型包括: 第一特征提取网络、 第二特征提取网络以及输出网络, 所述第一特征 提取网络采用深度可分离卷积对所述待识别图 像进行特征提取得到三张特征图, 所述第二特征 提取网络对所述三张特征图分别再次进行特征 提取得到三张目标特征图, 所述输出网络用于输 出所述三张目标特征图。 采用本申请实施例的技 术方案保证模型检测速度的同时也具有较高的 准确率。 权利要求书2页 说明书9页 附图3页 CN 115311518 A 2022.11.08 CN 115311518 A 1.一种获取视 觉属性信息的方法, 其特 征在于, 所述方法包括: 获取待识别图像; 将所述待识别图像输入目标属性信 息提取模型, 并通过所述目标属性信 息提取模型得 到至少一种视觉属性信息, 其中, 所述目标属 性信息提取模型包括: 第一特征提取网络、 第 二特征提取网络以及输出网络, 所述第一特征提取网络采用深度可分离卷积对所述待识别 图像进行特征提取得到三张特征图, 所述第二特征提取网络对所述三张特征图分别再次进 行特征提取得到三张目标 特征图, 所述输出网络用于 输出所述三张目标 特征图。 2.如权利要求1所述的方法, 其特征在于, 所述第一特征提取网络包括MobileNetV3网 络, 其中, 所述MobileNetV3网络采用所述深度可分离卷积对所述待识别图像进行特征提 取。 3.如权利要求2所述的方法, 其特征在于, 所述第 一特征提取网络还包括第 一池化处理 模块以及第二池化处理模块, 其中, 所述第一池化处理模块被配置为得到固定尺寸的特征 向量, 所述第二池化处 理模块被 配置为提取不同尺寸的空间特 征信息。 4.如权利要求3所述的方法, 其特 征在于, 所述通过所述目标属性信息提取模型 得到至少一种视 觉属性信息, 包括: 将所述待识别图像输入所述第一池化处 理模块得到固定尺寸的特 征向量; 根据所述特 征向量和所述Mobi leNetV3网络得到一张初始特 征图; 根据所述初始特征图和所述第二池化处理模块得到目标特征图, 其中, 所述目标特征 图属于所述 三张特征图中的一张。 5.如权利要求4所述的方法, 其特征在于, 所述第 一池化处理模块和所述第 二池化处理 模块均分别包括: 第一池化子模块、 第二池化子模块、 第三池化子模块以及拼接子模块, 其 中, 所述第一池化子模块使用第一尺寸的池化核对输入图像进行池化操作得到第一尺寸池 化图, 所述第二池化子模块使用第二尺寸的池化核对所述输入图像进 行池化操作得到第二 尺寸池化图, 所述第三池化子模块使用第三尺寸的池化核对所述输入图像进 行池化操作得 到第三尺寸池化图, 所述拼接子模块被配置为使用拼接函数对所述输入图像、 所述第一尺 寸池化图、 所述第二尺寸池化图以及所述第三尺 寸池化图进 行一个通道上的融合得到所述 第一池化处 理模块或者所述第二池化处 理模块的输出图像。 6.如权利要求5所述的方法, 其特征在于, 所述第一尺寸的池化核为5*5池化核、 所述第 二尺寸的池化核为9*9池化核, 所述第三尺寸的池化核为13 *13池化核。 7.如权利 要求3‑6任一项所述的方法, 其特征在于, 所述第一特征提取网络还包括CBAM 注意力机制处理模块, 其中, 所述CBAM注 意力机制处理模块接收由所述MobileNetV3网络输 出的图像数据, 所述CBAM注 意力机制处理模块的输出数据作为所述第二特征提取网络的输 入数据。 8.如权利要求7所述的方法, 其特征在于, 所述CBAM注意力机制处理模块被配置为: 针 对输入的特征图, 在每一个特征点的通道上取平均值和最大值得到两个结果, 再把所述两 个结果进行堆叠并通过点卷积改变通道数, 再经过一个Sigmoid函数得到输入特征层每一 个特征点的权 重, 把所述权 重与所述输入的特 征图相乘完成空间注意力的操作。 9.如权利要求7所述的方法, 其特征在于, 所述MobileNetV3网络包括第一MobileNetV3 网络、 第二MobileNetV3网络以及第三MobileNetV3网络, 所述CBAM注意力机制处理模块包权 利 要 求 书 1/2 页 2 CN 115311518 A 2括第一CBAM注 意力机制处理模块、 第二CBAM注 意力机制处理模块以及第三CBAM注 意力机制 处理模块, 其中, 所述第一Mobi leNetV3网络的输出作为所述第一CBAM注意力机制处 理模块的输入; 所述第二Mobi leNetV3网络的输出作为所述第二CBAM注意力机制处 理模块的输入; 所述第三MobileNetV3网络的输出作为所述第二池化处理模块的输入, 且所述第二池 化处理模块的输出作为所述第三CBAM注意力机制处 理模块的输入。 10.如权利要求9所述的方法, 其特 征在于, 所述第二特 征提取网络使用PANet网络 。 11.如权利要求1所述的方法, 其特征在于, 在所述将所述待识别图像输入目标属性信 息提取模型之前, 所述方法还 包括: 使用K均值 算法对数据集中的目标进行聚类, 得到多个目标尺寸的先验框; 根据所述先验框对属性信息提取模型进行训练得到所述目标属性信息提取模型。 12.如权利要求1 1所述的方法, 其特 征在于, 所述K均值 算法为kmeans++算法。 13.一种获取视 觉属性信息的装置, 其特 征在于, 所述装置包括: 获取模块, 被 配置为获取待识别图像; 视觉属性信息获取模块, 被配置为将所述待识别图像输入目标属性信息提取模型, 并 通过所述 目标属性信息提取模型得到至少一种视觉属 性信息, 其中, 所述 目标属性信息提 取模型包括: 第一特征提取网络、 第二特征提取网络以及输出网络, 所述第一特征提取网络 采用深度可分离卷积对所述待识别图像进 行特征提取得到三张特征图, 所述第二特征提取 网络对所述三张特征图分别再次进行特征提取得到三张目标特征图, 所述输出网络用于输 出所述三张目标 特征图。 14.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理 器执行时可实现权利要求1 ‑12中任意 一项权利要求所述的方法。 15.一种电子设备, 包括存储器、 处理器以及存储在所述存储器上并可在所述处理器上 运行的计算机程序, 其中, 所述处理器执行所述程序时可实现权利要求1 ‑12中任意一项权 利要求所述的方法。权 利 要 求 书 2/2 页 3 CN 115311518 A 3

.PDF文档 专利 一种获取视觉属性信息的方法、装置、介质及电子设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种获取视觉属性信息的方法、装置、介质及电子设备 第 1 页 专利 一种获取视觉属性信息的方法、装置、介质及电子设备 第 2 页 专利 一种获取视觉属性信息的方法、装置、介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:56:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。