行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210430966.3 (22)申请日 2022.04.22 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 张健  (74)专利代理 机构 北京柏杉松知识产权代理事 务所(普通 合伙) 11413 专利代理师 丁芸 马敬 (51)Int.Cl. G06T 17/00(2006.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06V 10/44(2022.01) G06V 10/46(2022.01)G06V 10/82(2022.01) (54)发明名称 一种用于建立三维模型的深度学习模型的 训练方法及装置 (57)摘要 本公开提供了一种用于建立三维模型的深 度学习模型的训练方法及装置, 涉及人工智能技 术领域, 尤其涉及计算机视觉技术领域。 具体实 现方案为: 获取第一样本图像数据及第二样本图 像数据输入深度学习模型中, 得到样本对象 的预 测纹理和光照参数、 预测对象模 型化参数及预测 相机坐标系变换参数, 预测对象模 型化参数表示 样本对象的形状、 位置、 尺度; 根据预测纹理和光 照参数计算得到成像损失; 根据预测对象模型化 参数计算得到模 型一致性损失; 根据预测相机坐 标系变换参数计算得到运动平滑 性损失; 根据成 像损失、 模型一致性损失、 运动平滑性损失调整 深度学习模 型的参数。 本公开实现了对建立三维 模型的深度学习模型的训练。 权利要求书5页 说明书16页 附图4页 CN 114758076 A 2022.07.15 CN 114758076 A 1.一种用于建立 三维模型的深度学习模型的训练方法, 所述方法包括: 获取第一样本 图像数据及第二样本 图像数据, 其中, 所述第一样本 图像数据及所述第 二样本图像数据中均包括样本对象; 将所述第一样本图像数据及所述第 二样本图像数据输入深度学习 模型中, 得到所述样 本对象的预测纹理和光照参数、 预测对象模型化参数及预测相机坐标系变换参数, 其中, 所 述预测对象模型化参数表 示所述样 本对象的形状、 位置、 尺度, 所述预测相机坐标系变换参 数表示第一相机坐标系 与第二相机坐标系之间的坐标系变换参数, 所述第一相机坐标系为 相机采集所述第一样本图像数据时的相机坐标系, 所述第二相机坐标系为相机采集所述第 二样本图像数据时的相机坐标系; 根据所述预测纹 理和光照参数, 计算得到成像损失; 根据所述预测对象模型化 参数, 计算得到模型一 致性损失; 根据所述预测相机坐标系变换参数, 计算得到运动平 滑性损失; 根据所述成像损 失、 所述模型一致性损 失、 所述运动平滑性损 失调整所述深度学习模 型的参数。 2.根据权利要求1所述的方法, 其中, 所述深度学习模型包括特征提取网络、 纹理和光 照预测网络、 模型化 参数预测网络、 坐标系变换参数 预测网络; 所述将所述第 一样本图像数据及所述第 二样本图像数据输入深度 学习模型中, 得到所 述样本对 象的预测纹理和光照参数、 预测对 象模型化参数及预测相 机坐标系变换参数, 包 括: 将所述第一样本图像数据及所述第 二样本图像数据输入到所述特征提取网络中, 得到 第一图像特 征及第二图像特 征; 将所述第一图像特征及第 二图像特征输入到所述纹理和光照预测网络中, 得到所述样 本对象的预测纹 理和光照参数; 将所述第一图像特征及第 二图像特征输入到所述模型化参数预测网络中, 得到所述样 本对象的预测对象模型化 参数; 将所述第一图像特征及第 二图像特征输入到所述坐标系变换参数预测网络 中, 得到所 述预测相机坐标系变换参数。 3.根据权利要求1所述的方法, 其中, 所述根据所述预测对象模型化参数, 计算得到模 型一致性损失, 包括: 基于所述预测对象模型化参数, 在原图像数据的方向上进行二维投影, 得到的二维投 影关键点数据, 其中, 所述原图像数据包括第一样本图像数据及第二样本图像数据的至少 一种; 获取所述原图像数据中样本对象的二维关键点数据, 得到真值 二维关键点数据; 根据所述真值二维关键点数据及所述二维投影关键点数据的差异, 计算得到模型一致 性损失。 4.根据权利要求3所述的方法, 其中, 所述根据所述真值二维关键点数据及所述二维投 影关键点数据的差异, 计算得到模型一 致性损失, 包括: 按照以下公式, 得到模型一 致性损失:权 利 要 求 书 1/5 页 2 CN 114758076 A 2其中, Econ为所述模型一致性损失, 为二维投影关键点数据中的第i个二维投影关键 点的 坐标 , 为所 述真 值二维 关 键点数 据中的 第i 个真 值关 键点的 坐标 , 表示对第i个二维投影关键点的坐标与第i个真值关键点的坐标计算 L1平滑损失, k表示所述真值 二维关键点数据中真值关键点的总个数。 5.根据权利要求1所述的方法, 其中, 所述根据所述预测相机坐标系变换参数, 计算得 到运动平 滑性损失, 包括: 基于所述预测对象模型化参数, 确定所述样本对象的各关键点在所述第 一相机坐标系 中的第一三 维坐标, 以及确定所述样本对象的各关键点在所述第二相机坐标系中的第二三 维坐标; 根据所述预测相机坐标系变换参数, 将所述第 一三维坐标转换到所述第 二相机坐标系 中, 得到第三 三维坐标; 根据所述第二 三维坐标与所述第三 三维坐标的差异, 计算得到运动平 滑性损失。 6.根据权利要求5所述的方法, 其中, 所述根据所述第 二三维坐标与 所述第三三维坐标 的差异, 计算得到运动平 滑性损失, 包括: 按照以下公式, 得到所述 运动平滑性损失: 其中, Esmooth为所述运动平滑性损失, 为所述样本对象的第i个关键点的第三三维坐 标, 为所述样本对象的第i个关键点的第二三维坐标, 表示对第i 个关键点第三三 维坐标与第i个 关键点第二三 维坐标计算L 1平滑损失, k表 示所述样 本对象 的关键点的总个数。 7.根据权利要求3所述的方法, 其中, 所述根据所述预测 纹理和光照参数, 计算得到成 像损失, 包括: 基于所述预测 纹理和光照参数、 所述预测对象模型化参数, 渲染得到原图像数据的重 构图像数据, 其中, 所述原图像数据包括第一样本图像数据及第二样本图像数据的至少一 种; 基于所述原图像数据及所述重构图像数据的差异, 计算得到成像损失。 8.根据权利要求7所述的方法, 其中, 所述基于所述原图像数据及所述重构图像数据的 差异, 计算得到成像损失, 包括: 根据所述原图像数据及所述重构图像数据, 按照以下公式, 得到成像损失: 其中, Epixel表示所述成像损失, Sre表示所述重构图像数据中关键点集合, Z表示归一化权 利 要 求 书 2/5 页 3 CN 114758076 A 3

PDF文档 专利 一种用于建立三维模型的深度学习模型的训练方法及装置

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于建立三维模型的深度学习模型的训练方法及装置 第 1 页 专利 一种用于建立三维模型的深度学习模型的训练方法及装置 第 2 页 专利 一种用于建立三维模型的深度学习模型的训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。