(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211131709.6
(22)申请日 2022.09.16
(71)申请人 北京邮电大 学
地址 100876 北京市海淀区西土城路10号
(72)发明人 刘雨 潘宇轩 胡欣珏 王晨晨
张琳
(74)专利代理 机构 北京永创新实专利事务所
11121
专利代理师 易卜
(51)Int.Cl.
G06T 7/55(2017.01)
G06T 7/269(2017.01)
G06T 7/73(2017.01)
G06T 7/136(2017.01)
G06V 20/70(2022.01)
(54)发明名称
一种大基线光场视频深度估计方法
(57)摘要
本发明提出一种大基线光场视频深度估计
方法, 属于视觉图像处理领域, 具体为: 首先, 利
用光场相机采集图像, 依次读入 单视点原始视频
并拆帧, 将同一时刻下不同视点的子孔径视频帧
图像作为一组; 针对每组图像, 利用各帧图像的
行像素以及列像素, 分别生成水平和垂直EPI图
像; 然后, 对中心行/中心列分别进行梯度图模板
检测和Graph ‑based图像分割, 得到各帧EPI图像
的宏像素块 分割参考结果; 接着, 在各帧EPI图像
中寻找目标像素位置作为初步深度估计结果, 并
将初步估计结果进行三角坐标映射, 确定目标像
素的深度信息, 即水平/垂直EPI图像中包含的原
始像素的深度信息。 本发明提高了宏像素块的坐
标匹配精度, 同时也提升了深度估计结果的准确
性。
权利要求书2页 说明书9页 附图2页
CN 115496790 A
2022.12.20
CN 115496790 A
1.一种大基线光场视频深度估计方法, 其特 征在于, 具体步骤如下:
首先、 利用光场相机采集图像, 依次读入单视点原始视频文件进行拆帧, 将同一时刻下
不同视点的视频帧图像作为 一组进行存 储, 得到多视点 光场子孔径图像集;
针对每组图像, 利用各帧子孔径图像中行像素以及列像素, 分别生成各帧图像的水平
EPI图像和垂直EPI图像;
然后、 利用各帧水平/垂直EPI图像的中心行/中心列分别进行梯度图模板检测和
Graph‑based图像分割, 得到各帧水平/垂直EPI图像对应的宏像素块分割参 考结果;
接着、 利用各帧水平/垂直EPI图像的宏像素块分割参考结果, 在各帧水平/垂直EPI图
像中寻找目标像素位置作为初步深度估计结果;
具体为:
首先, 逐个选择每帧子孔径图像, 将当前帧水平EPI图像的宏像素块分割参考结果作为
图像a1, 将该图像中除去中心行外的其 余像素行进行复制, 形成新的复制图像b1;
图像b1中像素 行外拓的长度为图像a1中分割的宏像素块的最大长度;
然后, 将复制图像b1中各行逐像素循环与图像a1中像素, 在多尺度空间中计算标准平
方差Sq_dif f与相关性系数R两种特 征指标, 并取平均值:
标准平方差越接近0, 则代表两个像素的匹配度越高, 反之则代表匹配度越差; 相关性
系数R越趋向于1, 表示两个像素的目标区域完全匹配, 反之则表示两者之间没有任何相关
性;
其中:
T'(x',y')=T(x' ,y')‑1/(w·h)·∑x”,y”T(x”,y”) (3)
I'(x+x',y+y')= I(x+x',y+y')‑1/(w·h)·∑x”,y”I(x+x”,y+y”) (4)
(x,y)为当前循环时取 出的图像b1的左上角平面 直角坐标, 代 表循环的位置;
(x',y')为图像b1中的各点相对左上角的偏移量;
T(x',y')得到点在图像a1中的坐标, 即图像a1左上角的坐标加偏移量;
I(x+x',y+y')得到点在图像b1中的坐标, 即图像b1左上角的坐标加偏移量;
w和h分别为对应图像的宽和高;
T(x”,y”)得到图像a1的点在完整EPI中的坐标;
I(x+x”,y+y”)得到图像b1的点在完整EPI中的坐标;
最后, 将平均值进行降序排序, 选择最大平均值对应的像素值作为目标像素;
利用各目标像素值坐标计算其连线在水平EPI图像中的斜率信息, 并转换到相应的[0,
255]灰度空间中作为初步深度估计结果;
同理, 将当前帧垂直EPI图像的宏像素块分割参考结果作 为图像a2, 将该图像中除去中
心列外的其余像素行进 行复制, 形成新的复制图像b2; 然后, 将复制图像b2中各列逐像素循权 利 要 求 书 1/2 页
2
CN 115496790 A
2环与图像a2中像素, 在多尺度空间中计算标准平方差Sq_diff与相关性系数R两种特征指
标, 并取平均值; 将平均值进行降序排序, 选择最大平均值对应的像素值作为目标像素; 利
用各目标像素值坐标计算其连线在垂直EPI图像中的斜率信息, 并转换到相应的[ 0,255]灰
度空间中作为初步深度估计结果;
最后、 通过初步估计结果利用计算机视觉中三角坐标映射法, 获得三维匹配结果确定
为目标像素的深度信息, 即水平/垂直EPI图像中包 含的原始像素的深度信息 。
2.根据权利要求1所述的一种大基线光场视频深度估计方法, 其特征在于, 所述每组视
频帧图像包括 N帧子孔径图像, 每一帧子孔径图像分别对应一个视点。
3.根据权利要求1所述的一种大基线光场视频深度估计方法, 其特征在于, 所述生成各
帧图像的水平EPI图像和垂直EPI图像, 具体为:
针对每帧子孔径图像, 从第 一行开始循环, 从左至右依次提取相同高度值的像素点, 组
成该子孔径图像的水平EPI(宽像素外极平面)图像; 同理, 从第一列从上至下开始循环, 依
次提取相同宽度值的像素点, 得到垂直EPI图像。
4.根据权利要求1所述的一种大基线光场视频深度估计方法, 其特征在于, 所述得到各
帧水平/垂直EPI图像对应的宏像素块分割参 考结果的过程 为:
首先, 针对当前水平EPI图像, 选择中心行水平宽像素进行梯度图模板检测, 得到纹理
分割结果;
然后, 对中心行 再次进行Graph ‑based图像分割, 得到其语义分割结果;
对纹理和语义分割结果进行逻辑或运算判定, 将水平EPI图像有相关性的原始宽像素
定义为宏像素, 得到该帧中的宏像素块分割参 考结果;
同理, 针对当前垂直EPI图像, 选择中心列垂直宽像素进行梯度图模板检测, 得到纹理
分割结果;
然后, 对中心列再次进行Graph ‑based图像分割, 得到其语义分割结果;
对纹理和语义分割结果进行逻辑或运算判定, 将垂直EPI图像有相关性的原始宽像素
定义为宏像素, 得到该帧中的宏像素块分割参 考结果。
5.根据权利要求1所述的一种大基线光场视频深度估计方法, 其特征在于, 所述目标像
素的深度信息具体为: 对所有的水平/垂直EPI图像的目标像素位置的深度数值加权平均,
按坐标映射回原 始视频帧, 获得对应的视频帧的深度图输出 结果。权 利 要 求 书 2/2 页
3
CN 115496790 A
3
专利 一种大基线光场视频深度估计方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:02:44上传分享