行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210854710.5 (22)申请日 2022.07.18 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 (72)发明人 杨杰 马利庄 宋海川  (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师 徐筱梅 张翔 (51)Int.Cl. G06T 7/55(2017.01) G06T 7/73(2017.01) G06V 10/26(2022.01) G06V 10/52(2022.01) G06N 3/04(2006.01) (54)发明名称 一种基于神经辐射场和语义分割的单目视 图深度估计方法 (57)摘要 本发明公开了一种基于神经辐射场和语义 分割的单目视图深度估计方法, 其特点是采用基 于神经辐射场的语义分割或者部件分割的方法, 利用增强的语义信息提升网络的拟合和自适应 能力, 实现对单场景下多张视图进行深度估计, 具体包括: 1)深度先验预测; 2) 深度先验优 化; 3) 神经辐射场训练; 4) 体渲染输出深度图等步骤。 本发明与现有技术相比具有解决了常规单目深 度估计问题中低纹理区域特征不足和自遮挡导 致的缝隙深度误差问题, 提升了网络的拟合和自 适应能力, 增强了语义信息, 从而提高了深度尤 其是低纹理区域和边缘区域深度的预测效果, 方 法简便, 使用效果好, 优势, 具有广泛的应用前 景。 权利要求书2页 说明书5页 附图1页 CN 115393410 A 2022.11.25 CN 115393410 A 1.一种基于神经辐射场和语义分割的单目视图深度估计方法, 其特征在于采用基于神 经辐射场的语义分割或者部件分割的方法, 利用增强的语义信息提升网络的拟合和自适应 能力, 实现对单场景 下多张视图进行深度估计, 具体包括下述 步骤: 步骤1:深度先验预测 1‑1: 将每个场景图片一起输入利用三维重建算法获得场景的稀疏点云, 并将点云投影 到每个视角下, 获得对应视角的稀疏深度图和对应遮罩; 1‑2: 将场景图片单独输入到预训练的深度预测网络, 利用其对应的稀疏深度图和尺度 不变的损失函数进行指导获得每张图片对应的深度先验图, 从而将网络过拟合到该场景, 即同一场景 所有图片共享网络参数; 步骤2:深度先验 优化 2‑1: 将每个场景图片单独输入到预训练的语义分割网络, 获得对应的语义分割灰度图 结果, 将语义分割灰度图和步骤1 ‑2获得的深度先验图进行拼接, 共同输入到优化网络; 2‑2: 优化网络整体呈编码器 ‑解码器结构, 提取不同尺度图片信息, 并输出场景每张图 片的深度预测图, 对深度预测图和步骤1 ‑1获得的稀疏深度图计算尺度不变的损失函数, 并 与步骤1‑2深度预测网络的损失函数一起加权求和, 获得总损失函数进 行指导, 强化场景的 语义理解, 优化 步骤1‑2获得的深度先验图; 步骤3:神经辐射场训练 3‑1: 利用每张图片的相机位姿参数, 在每个像素对应相机视角的射线上采样, 采样范 围由深度先验图、 以及根据深度先验图计算出 的深度置信图进行指导, 即将颜色图片信息 转换为包 含点的位置和观察视角的大量空间点的信息; 3‑2: 将所有三维空间点的坐标信息输入到全连接网络, 在多层感知机和残差结构后输 出每个点对应的密度概率值和分割信息值, 同时向网络中输入空间点的视角 信息, 并在额 外的全连接层后输出每 个三维空间点的颜色信息值; 步骤4:体渲染输出深度图 4‑1: 利用体渲染公式和输出的密度概率信息、 分割信 息以及颜色信息计算每个像素的 预测分割概率分布、 预测颜色值, 将生成的分割信息和原图对应的语义分割图信息进行比 较, 计算交叉熵损失; 将生成的颜色信息和原图颜色信息进行比较, 计算其均方方差损失; 将交叉熵损失和均方 方差损失的两个函数加权相加, 并进行反向传播推进网络训练; 4‑2: 利用完成训练的密度概率信息和每个点采样时的深度信息进行体渲染, 得到每个 像素最终的深度值, 从而完成深度图的生成; 4‑3: 利用体渲染得到的颜色图与输入神经辐射场的原图进行对比, 计算其误差作为滤 波, 对得到的深度图进行 过滤优化。 2.根据权利要求1所述的一种基于神经辐射场和语义分割的单目视图深度估计方法, 其特征在于所述步骤1 ‑1获得的稀疏深度图作为指导是利用场景图片和三 维重建算法预先 获得较准确的稀疏深度图作为指导, 并将预训练深度网络过拟合到当前场景, 且所有图片 共享网络参数。 3.根据权利要求1所述的一种基于神经辐射场和语义分割的单目视图深度估计方法, 其特征在于所述步骤1 ‑2中尺度不变的损失函数是利用尺度不变的损失函数进行反向传 播, 所述尺度不变的损失函数是利用遮罩去除稀疏深度图中不可用的数据, 然后根据对数权 利 要 求 书 1/2 页 2 CN 115393410 A 2函数放缩数值范围, 计算图片间平均误差, 并将预测结果的每个像素加上平均误差后与真 实参考值进行差值计算并求和。 4.根据权利要求1所述的一种基于神经辐射场和语义分割的单目视图深度估计方法, 其特征在于所述步骤2 ‑1中语义分割灰度图和步骤1获得的深度先验图进行拼接是将场景 图片的语义信息和深度信息拼接, 利用语义信息中的类别和边缘信息, 指导深度图中低纹 理区域和边 缘区域的深度变化。 5.根据权利要求1所述的一种基于神经辐射场和语义分割的单目视图深度估计方法, 其特征在于所述步骤2 ‑2中优化网络使用U 型编码解码结构, 利用深度预测图和语义分割图 的不同尺度信息, 且下采样时在不同尺度上加入原始的卷积层信息, 将图片 中不同模块的 区别度加以强调。 6.根据权利要求1所述的一种基于神经辐射场和语义分割的单目视图深度估计方法, 其特征在于所述步骤3 ‑1中根据深度先验图计算出的深度置信图进行指导, 利用深度先验 进行神经辐射场采样的指导, 具体包括: A1: 将每张深度图投影回三维空间形成点, 然后投影到所有其他视角下, 获得每个视角 下其他视角投影过来的深度图, 并取其中K张误差最小的图作为 参考计算其平均误差; A2: 在每个像素对应射线上深度先验图的周围采样空间点, 并依赖该像素的深度误差 图进行采样范围的放缩。 7.根据权利要求1所述的一种基于神经辐射场和语义分割的单目视图深度估计方法, 其特征在于所述步骤3 ‑2中输出每个点对应的密度概率值和分割信息值, 除了常规的颜色 输出和密度概率输出以外, 额外输出与观察视角无关的语义信息, 每个空间点输出包含255 类语义的概 率分布情况。 8.根据权利要求1所述的一种基于神经辐射场和语义分割的单目视图深度估计方法, 其特征在于所述步骤4 ‑1中将生成的分割信息和原图对应的语义分割图信息进行比较, 除 了利用颜色图进 行自监督指导以外, 还利用体渲 染获得的语义分割信息和先前的语义分割 图进行交叉熵计算, 进一 步加强语义信息的影响。 9.根据权利要求1所述的一种基于神经辐射场和语义分割的单目视图深度估计方法, 其特征在于所述步骤4 ‑3中计算其误差作为滤波 是根据生成颜色图和原图之间的误差 设计 平面双边滤波器, 进一 步优化深度图获得最终结果。权 利 要 求 书 2/2 页 3 CN 115393410 A 3

.PDF文档 专利 一种基于神经辐射场和语义分割的单目视图深度估计方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于神经辐射场和语义分割的单目视图深度估计方法 第 1 页 专利 一种基于神经辐射场和语义分割的单目视图深度估计方法 第 2 页 专利 一种基于神经辐射场和语义分割的单目视图深度估计方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:02:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。