行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210501756.9 (22)申请日 2022.04.28 (71)申请人 上海人工智能创新中心 地址 200000 上海市徐汇区云锦路701号 37、 38层 (72)发明人 高鹏 马特立 代季峰 李鸿升  乔宇  (74)专利代理 机构 北京市诚辉律师事务所 11430 专利代理师 耿慧敏 成丹 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01) G06V 10/26(2022.01)G06V 10/764(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于卷积掩码的视觉特征学习器、 获取装置 及存储介质 (57)摘要 本发明涉及一种基于卷积掩码自动编码技 术的视觉 特征学习器, 其利用卷积的局部特征提 取机制在浅层收集特征, 用变换(Transformer) 模块的全局特征提取机制在深层网络收集特征; 所述学习器的参数通过预学习获得。 在预学习 中, 使用随机掩码在不同尺度之间的图像上掩盖 相同位置, 解决了现有掩码生 成无法多尺度的问 题, 以及在多尺度之间随机掩码会导致信息泄漏 的问题, 从而通过实现高效的多尺度掩码训练, 形成金字塔型多尺度特征。 将学习器配合下游任 务进一步训练使用, 比如图像分类、 目标检测或 语义分割, 能够提高业 务性能和准确度。 权利要求书2页 说明书5页 附图2页 CN 114998671 A 2022.09.02 CN 114998671 A 1.一种基于卷积掩码自动 编码技术的视觉特征学习器, 其特 征在于: 所述学习器包括串接 的卷积单元和变换(Transformer)单元, 所述卷积单元包括下采 样层和卷积层, 所述变换(Transformer)单 元包括下采样层和变换(Transformer)层; 将图像输入学习器, 能够输出多尺度图像特 征; 若在使用卷积层或变换(Transformer)层进行 图像特征提取之前, 对下采样得到 的图 像特征使用掩码进行局部随机遮盖, 且每次未被遮盖的部分不包括曾被遮盖过的部分, 基 于变换(Tr ansformer)层输出的图像特征和最后一次掩码, 能够得到被遮盖部分的恢复图 像。 2.根据权利要求1所述的学习器, 其特征在于, 所述未被遮盖的部分不包括曾被遮盖过 的部分通过 下述方式实现: 随机生成一个尺度的掩码并固定, 通过 上采样或下采样, 进 而确定相邻层掩码的位置 。 3.根据权利要求1所述的学习器, 其特 征在于, 所述卷积层采用的卷积核为5 ×5。 4.根据权利要求1所述的学习器, 其特征在于, 所述卷积层采用深度可分离卷积进行局 部图像特 征提取。 5.根据权利要求1所述的学习器, 其特征在于, 所述变换(Transformer)层由变换 (Transformer)模块构成, 所述变换(Transformer)模块的数量可调 整; 所述卷积层中的至 少进行两次卷积 操作。 6.根据权利要求1所述的学习器, 其特征在于, 所述学习器在变换(Transformer)层之 后, 还包括一个下采样层。 7.根据权利要求1所述的学习器, 其特征在于, 所述学习器采用预训练确定卷积层和变 换(Transformer)层的参数: 所述预训练将训练图像输入第一模型, 所述第一模型包括编码器和解码器; 编码器中 的卷积层和变换(Transformer)层与学习器相同; 在编码器 中, 在第一个卷积层进行局部图像特征提取之前, 依次进行下述操作: 对训练 图像进行 下采样, 对下采样得到的图像使用掩码进行局部随机遮盖; 在接下来的卷积层进行局部 图像特征提取之前, 依次进行下述操作: 对输入的局部 图 像特征进 行下采样, 对下采样后的局部图像特征使用掩码进 行局部随机遮盖且使 未被遮盖 的部分不包 含被遮盖过的部分; 对输入变换(Transformer)层进行全局图像特征提取之前, 依次进行下述操作: 对输入 的局部图像特征进行下采样, 对下采样后的局部图像特征进行拉平, 使用掩码进行局部随 机遮盖且使未被遮盖的部分不包 含被遮盖过的部分; 将变换(Transformer)层输出的图像特征和最后一次掩码, 输入到解码器, 获取被遮盖 部分的恢复图像; 计算遮盖部分恢复值与实际 值的 损失 , 通过梯度反传更新卷积层和变换 (Transformer)层的参数值, 直至训练完成。 8.根据权利要求7所述的学习器, 其特征在于, 所述解码器由变换(Transformer)模块 构成, 所述变换(Transformer)模块的数量可调整。 9.一种基于卷积掩码自动编码技术的视觉特征获取装置, 其特征在于, 所述装置包括 存储器和处理器, 所述存储器上存储有能够被处理器加载并执行如权利要求 1至8中任一种权 利 要 求 书 1/2 页 2 CN 114998671 A 2学习器的计算机实现程序。 10.一种计算机可读存储介质, 其特征在于: 存储有能够被处理器加载并执行如权利要 求1至8中任一种学习器的计算机实现程序。权 利 要 求 书 2/2 页 3 CN 114998671 A 3

PDF文档 专利 基于卷积掩码的视觉特征学习器、获取装置及存储介质

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于卷积掩码的视觉特征学习器、获取装置及存储介质 第 1 页 专利 基于卷积掩码的视觉特征学习器、获取装置及存储介质 第 2 页 专利 基于卷积掩码的视觉特征学习器、获取装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。