行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211201019.3 (22)申请日 2022.09.28 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 李建强 刘小玲 刘朝磊 赵琳娜  刘素芹 徐曦 赵青  (74)专利代理 机构 北京思海天达知识产权代理 有限公司 1 1203 专利代理师 刘萍 (51)Int.Cl. G06V 10/24(2022.01) G06V 10/25(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) (54)发明名称 一种基于多尺度显著特征融合的弱监督图 像目标定位方法 (57)摘要 一种基于多尺度显著特征融合的弱监督图 像目标定位方法, 属于计算机视觉领域。 为了解 决小目标图像ROI标注工作繁杂、 CA M激活不足两 个问题, 本发 明重点关注优化弱监督下分类网络 输出类激活图的研究。 本发明涉及两个层面的信 息融合:①由于卷积神经网络中最底层的特征图 语义信息弱但 位置信息强, 故可与最高层特征图 进行融合得到分类网络最终的特征图; ②由于分 类网络对不同尺度ROI的敏感度不同, 其得到的 类激活图也有所不同, 所以融合不同激活图中互 补的对象信息能够完善图像中目标区域的定位, 进而产生更准确的伪标签用于分割任务。 权利要求书4页 说明书7页 附图1页 CN 115546466 A 2022.12.30 CN 115546466 A 1.一种基于多尺度显著特 征融合的弱监 督图像目标定位方法, 其特 征在于: 步骤1: 图像预处 理 图像预处 理的目的是统一数据集内所有图像的尺寸; 步骤2: 图像金字塔构建 该步骤以数据集内 图像为源图像, 通过构建高斯金字塔来获取输入图像的三种尺度变 换; 为同时获取较于原图更全局和更细粒度的信息, 构建的高斯金字塔采用向下采样和向 上采样混合的金字塔结构; 步骤2.1图像金字塔顶层构建: 以输入图像为源图像, 首先利用5*5大小 的模板高斯核 对其进行高斯平滑处理, 然后通过去除图像矩阵中的偶数行和列来对处理后的图像进 行下 采样, 最后得到 输入图像1/4大小的图像, 并以此作为图像金字塔顶层; 步骤2.2图像金字塔底层构建: 以输入图像为源图像, 首先将图像在每个方向上都扩大 为原来的2倍, 其中新增的行和列用数值0来填充; 然后将5*5大小的模板高斯核乘4后再与 放大后的图像进行卷积运算, 以获得新增像素的近似值; 最后得到输入图像4倍大小的图 像, 并以此作为图像金字塔底层; 步骤2.3图像金字塔层数确定: 为图像金字塔中不同层上的图像确定编号, 其中图像金 字塔层数编号从0开始, 随着金字塔层数的增加, 图像分辨率相应减小; 构建的图像金字塔 为3层, 其中原图处于第2层, 相应的金字塔层数编号 为1; 步骤3: 分类 器特征图获取 该步骤针对图像金字塔中三种不同尺度的图像, 分别训练一个分类器, 以得到同一图 像三种不同尺度的类激活图; 步骤3.1分类 网络训练: 选用经典的ResNet50作为分类 网络, 用于判断输入图像所属的 类别; 由于图像金字塔中存在三种不同尺度的图像, 所以最终需要为三个不同尺度的图像 数据集分别训练一个分类 器; 步骤3.2高低层特 征图融合: 将每一个分类网络 中最高层特征与最低层特征进行对齐拼接, 促使 网络增强小目标对 象低层次的特 征, 以获得网络最后的融合特 征图; 步骤4: 多尺度CAM融合 该步骤获取三个分类网络的CAM, 将其对齐后再进行融合, 最终得到图像对应的融合 CAM图; 步骤4.1分类网络CAM获取: 针对步骤3.2中得到的最终融合特征图, 通过将其与分类 网 络中全连接层的权重矩阵相乘以获得CAM; 由于使用了三个分类网络, 所以对于每一张源图 像, 最终将得到三张不同尺度的CAM, 构成CAM金字塔; 步骤4.2多个CAM对齐: 将不同尺度的CAM基于源图像的尺寸进行对齐, 以方便后续的融 合操作; 步骤4.3多个CAM融合: 对于融合CAM中的任一像素, 采用以下判断机制: 若至少存在两 个独立CAM在该点关于某类别的激活值大于等于阈值, 则认为该像素点属于该类别; 若 经过 判断机制后该像素点未分配给任何类别, 则忽略该像素点; 若该像素点被分配给了多个类 别, 则将该像素点分配给三个 独立CAM在该点的最大平均激活值对应的类别; 步骤5: ROI预测权 利 要 求 书 1/4 页 2 CN 115546466 A 2该步骤首先将步骤4.3中得到的融合CAM转换为伪标签, 再基于伪标签训练图像ROI的 定位分割网络, 最后利用网络进行ROI的预测; 步骤5.1融合CAM伪标签转换: 将融合后的CAM转换为用于分割网络训练的伪二值掩膜; 采用以下判断机制: 若融合CAM中的任意像素点属于非目标类, 则将该点像素值赋为0, 否则 赋为1; 步骤5.2分割网络训练预测: 基于步骤5.1中获得的伪二值标签训练图像分割网络, 选 用的分割网络架构为U ‑Net, 最后利用训练好的网络对测试集进行ROI的分割预测。 2.根据权利要求1所述的一种基于多尺度显著特征融合的弱监督图像目标定位方法, 其特征在于: 步骤1: 图像预处 理 图像预处理的目的是统一数据集内所有图像的尺寸; 将所有图像的尺寸都设定为512* 512; 步骤2: 图像金字塔构建 构建过程包括两个部分: 其一, 通过高斯金字塔将输入原图的宽和高分别下采样为原 始图像的50%, 由此得到256*256分辨率的图像作为金字塔的顶层; 其二, 通过高斯金字塔 将输入原图的宽和高分别上采样为原始图像的200%, 由此得到102 4*1024分辨率的图像作 为金字塔的底层; 具体如下: 步骤2.1图像金字塔顶层构建: 对于给定的512*512大小的原图, 向下采样以原图1/4大小的图像构 建高斯金字塔的顶 层, 图像对应分辨率为256*256; 具体过程如 公式(1)所示: 首先对512*512的原始图像做一 次高斯平滑处理, 其与简单平滑不同, 高斯平滑在计算周围像素加权平均值时, 对中心 点临 近的像素赋予了更高的权重值; 然后通过去除图像矩阵中的偶数行和列来对处理后的图像 进行下采样, 以得到25 6*256分辨率的图像; 1≤l≤L,0 ≤x≤Rl,0≤y≤Cl 其中Gl为高斯金字塔的第l层图像, 高斯金字塔层数从0开始, L为高斯金字塔顶层的层 号, Rl和Cl分别为第l层图像的行数和列数, W(m,n)为高斯滤波模 板的第m行第n列数值, 一般 取5*5大小, 选用反锐化掩膜算法中广泛使用的二 维可分离5*5的高斯核对原图进 行平滑处 理, 其值如(2)所示; 步骤2.2图像金字塔底层构建: 对于给定的512*512原图, 向上采样以原图4倍大小的图像构建高斯金字塔的最低层, 其对应分辨率为102 4*1024; 具体过程为: 首先将图像在每个方向上扩 大为原图像的2倍, 其 中新增的行和列都用数值0来填充; 然后将向下采样 中使用的高斯内核先乘4, 再将其与放 大的图像进行 卷积运算, 以获得新增像素的近似值, 最终得到1024*1024分辨 率的图像; 步骤2.3图像金字塔层数确定:权 利 要 求 书 2/4 页 3 CN 115546466 A 3

PDF文档 专利 一种基于多尺度显著特征融合的弱监督图像目标定位方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多尺度显著特征融合的弱监督图像目标定位方法 第 1 页 专利 一种基于多尺度显著特征融合的弱监督图像目标定位方法 第 2 页 专利 一种基于多尺度显著特征融合的弱监督图像目标定位方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。