行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210712879.7 (22)申请日 2022.06.22 (71)申请人 华为技术有限公司 地址 518129 广东省深圳市龙岗区坂田华 为总部办公楼 (72)发明人 韩建华 徐航 许春景  (74)专利代理 机构 深圳市深佳知识产权代理事 务所(普通 合伙) 44285 专利代理师 石翰林 (51)Int.Cl. G06T 7/11(2017.01) G06F 16/35(2019.01) G06T 9/00(2006.01) G06V 10/40(2022.01) G06V 10/762(2022.01) (54)发明名称 一种图像处 理方法和终端设备 (57)摘要 本申请实施例公开了一种图像处理方法和 终端设备, 用于实现对图像的语义识别。 本申请 实施例提供一种图像处理方法, 语义分割模型包 括: 视觉编码器和聚类头, 其中, 方法包括: 将待 预测的图像输入到视觉编码器中, 以得到像素级 嵌入特征; 将像素级嵌入特征输入到聚类头中, 以得到聚类结果; 根据聚类结果对像素级嵌入特 征进行池化, 以得到多个图像区域分别对应的视 觉嵌入特征; 根据多个图像区域分别对应的视觉 嵌入特征和文本嵌入特征, 对多个图像区域进行 语义分割, 以得到每个图像区域对应的语义分割 结果; 文本嵌入 特征为根据预定义的文本类别获 得。 权利要求书3页 说明书17页 附图3页 CN 115294150 A 2022.11.04 CN 115294150 A 1.一种图像处理方法, 其特征在于, 语义分割模型包括: 视觉编码器和聚类头, 其中, 所 述方法包括: 将待预测的图像输入到所述视 觉编码器中, 以得到像素级嵌入特 征; 将所述像素级嵌入特 征输入到所述聚类头中, 以得到聚类结果; 根据所述 聚类结果对所述像素级嵌入特征进行池化, 以得到多个图像区域分别对应的 视觉嵌入特 征; 根据所述多个图像区域分别对应的视觉嵌入特征和文本嵌入特征, 对所述多个图像区 域进行语义分割, 以得到每个图像区域对应的语义分割 结果; 所述文本嵌入特征为根据预 定义的文本类别获得。 2.根据权利要求1所述的方法, 其特 征在于, 所述语义分割模型, 还 包括: 文本编码器; 所述方法, 还 包括: 根据预定义的文本类别和预定义的提 示模板进行组合, 以得到文本; 将所述文本 输入到所述文本编码器中, 以得到多个文本类别对应的文本嵌入特 征。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述多个图像区域分别对应的视 觉嵌入特征和文本嵌入特征, 对所述多个图像区域进行语义分割, 以得到每个图像区域对 应的语义分割结果, 包括: 计算每个图像区域对应的视觉嵌入特征分别与所述多个文本类别的文本嵌入特征之 间的相似度, 以得到所述每 个图像区域对应的多个相似度值; 将所述多个相似度值中最大相似度值对应的文本类别作为所述每个图像区域对应的 语义分割结果。 4.根据权利要求1至 3中任一项所述的方法, 其特 征在于, 所述方法还 包括: 使用没有标注文本类别的图像文本对对所述语义分割模型进行模型训练, 然后输出完 成训练的语义分割模型。 5.根据权利要求4所述的方法, 其特征在于, 所述使用没有标注文本类别的图像文本对 对所述语义分割模型进行模型训练, 包括: 从所述图像文本对中获取原 始图像以及对应的原 始文本; 对所述原 始图像进行图像数据增强, 以得到所述原 始图像对应的多张局部图像; 将所述原始图像和所述多 张局部图像输入到所述视觉编码器中, 以得到全局视觉嵌入 特征和局部视觉嵌入特 征; 对所述全局视觉嵌入特征和所述局部视觉嵌入特征分别进行池化处理, 以得到池化后 的全局视 觉嵌入特 征和池化后的局部 视觉嵌入特 征; 对原始文本嵌入特征和所述池化后的全局视觉嵌入特征进行跨模态对比监督, 以得到 跨模态对比结果, 所述原始文本嵌入特征通过所述语义分割模型对所述原始文本进行特征 提取得到; 将所述全局视觉嵌入特征和所述局部视觉嵌入特征输入到所述 聚类头中, 通过所述 聚 类头计算所述全局视觉嵌入特征和所述局部视觉嵌入特征之间同一个像素点聚类结果分 布的最大化互信息; 通过优化所述跨模态对比结果和所述同一个像素点 聚类结果分布的最大化互信 息, 以 实现对所述语义分割模型的训练, 并在所述语义分割模型收敛时结束训练。权 利 要 求 书 1/3 页 2 CN 115294150 A 26.根据权利要求4所述的方法, 其特征在于, 所述通过优化所述跨模态对比结果和所述 同一个像素点聚类结果分布的最大化互信息, 以实现对所述语义分割模型 的训练, 并在所 述语义分割模型收敛时结束训练, 包括: 对所述池化后的全局视觉嵌入特征和所述池化后的局部视觉嵌入特征进行视觉对比 监督, 以得到 视觉对比结果; 通过优化所述视觉对比结果、 所述跨模态对比结果和所述同一个像素点 聚类结果分布 的最大化互信息, 以实现对所述语义分割模型 的训练, 并在所述语义分割模型收敛时结束 训练。 7.根据权利要求6所述的方法, 其特征在于, 所述对所述池化后的全局视觉嵌入特征和 所述池化后的局部 视觉嵌入特 征进行视 觉对比监 督, 以得到 视觉对比结果, 包括: 对所述池化后的全局视觉嵌入特征和所述池化后的局部视觉嵌入特征进行全连接映 射, 以得到全连接映射结果; 根据所述全连接映射结果计算全局视觉嵌入特征和局部视觉嵌入特征之间的语义一 致性, 并计算损失函数, 得到包括所述损失函数的视 觉对比结果。 8.根据权利要求5至7中任一项所述的方法, 其特征在于, 所述对原始文本嵌入特征和 所述池化后的全局视 觉嵌入特 征进行跨模态对比监 督, 以得到跨模态对比结果, 包括: 当所述图像文本对为多个的图像文本对时, 根据 所述原始文本嵌入特征和所述池化后 的全局视 觉嵌入特 征计算所述多个的图像文本对的跨模态监 督损失函数; 对所述多个的图像文本对的跨模态监督损失函数进行平均值计算, 以得到跨模态对比 结果。 9.根据权利要求1至8中任一项所述的方法, 其特征在于, 所述聚类头包括: 在线聚类 头。 10.根据权利要求1至9中任一项所述的方法, 其特征在于, 所述语义分割结果, 用于自 动驾驶领域、 或者产品器件缺陷检测领域、 或者终端图像分类识别领域。 11.一种终端设备, 其特征在于, 语义分割模型包括: 视觉编码器和聚类头, 其中, 所述 终端设备包括: 视觉编码模块, 用于将待预测的图像输入到所述视觉编码器中, 以得到像素级嵌入特 征; 聚类模块, 用于将所述像素级嵌入特 征输入到所述聚类头中, 以得到聚类结果; 池化模块, 用于根据所述聚类结果对所述像素级嵌入特征进行池化, 以得到多个图像 区域分别对应的视 觉嵌入特 征; 语义分割模块, 用于根据所述多个图像区域分别对应的视觉嵌入特征和文本嵌入特 征, 对所述多个图像区域进 行语义分割, 以得到每个图像区域对应的语义分割结果; 所述文 本嵌入特 征为根据预定义的文本类别获得。 12.一种终端设备, 其特征在于, 所述终端设备包括: 处理器, 存储器; 所述处理器、 所述 存储器之间进行相互的通信; 所述存储器用于存 储指令; 所述处理器用于执行所述存储器中的所述指令, 执行如权利要求1至10中任一项所述 的方法。权 利 要 求 书 2/3 页 3 CN 115294150 A 3

.PDF文档 专利 一种图像处理方法和终端设备

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种图像处理方法和终端设备 第 1 页 专利 一种图像处理方法和终端设备 第 2 页 专利 一种图像处理方法和终端设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:53:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。