专利一种大基线光场视频深度估计方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211131709.6 (22)申请日 2022.09.16 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人刘雨　潘宇轩　胡欣珏　王晨晨　张琳　 (74)专利代理机构北京永创新实专利事务所 11121 专利代理师易卜 (51)Int.Cl. G06T 7/55(2017.01) G06T 7/269(2017.01) G06T 7/73(2017.01) G06T 7/136(2017.01) G06V 20/70(2022.01) (54)发明名称一种大基线光场视频深度估计方法 (57)摘要本发明提出一种大基线光场视频深度估计方法，属于视觉图像处理领域，具体为：首先，利用光场相机采集图像，依次读入单视点原始视频并拆帧，将同一时刻下不同视点的子孔径视频帧图像作为一组；针对每组图像，利用各帧图像的行像素以及列像素，分别生成水平和垂直EPI图像；然后，对中心行/中心列分别进行梯度图模板检测和Graph ‑based图像分割，得到各帧EPI图像的宏像素块分割参考结果；接着，在各帧EPI图像中寻找目标像素位置作为初步深度估计结果，并将初步估计结果进行三角坐标映射，确定目标像素的深度信息，即水平/垂直EPI图像中包含的原始像素的深度信息。本发明提高了宏像素块的坐标匹配精度，同时也提升了深度估计结果的准确性。权利要求书2页说明书9页附图2页 CN 115496790 A 2022.12.20 CN 115496790 A 1.一种大基线光场视频深度估计方法，其特征在于，具体步骤如下：首先、利用光场相机采集图像，依次读入单视点原始视频文件进行拆帧，将同一时刻下不同视点的视频帧图像作为一组进行存储，得到多视点光场子孔径图像集；针对每组图像，利用各帧子孔径图像中行像素以及列像素，分别生成各帧图像的水平 EPI图像和垂直EPI图像；然后、利用各帧水平/垂直EPI图像的中心行/中心列分别进行梯度图模板检测和 Graph‑based图像分割，得到各帧水平/垂直EPI图像对应的宏像素块分割参考结果；接着、利用各帧水平/垂直EPI图像的宏像素块分割参考结果，在各帧水平/垂直EPI图像中寻找目标像素位置作为初步深度估计结果；具体为：首先，逐个选择每帧子孔径图像，将当前帧水平EPI图像的宏像素块分割参考结果作为图像a1，将该图像中除去中心行外的其余像素行进行复制，形成新的复制图像b1；图像b1中像素行外拓的长度为图像a1中分割的宏像素块的最大长度；然后，将复制图像b1中各行逐像素循环与图像a1中像素，在多尺度空间中计算标准平方差Sq_dif f与相关性系数R两种特征指标，并取平均值：标准平方差越接近0，则代表两个像素的匹配度越高，反之则代表匹配度越差；相关性系数R越趋向于1，表示两个像素的目标区域完全匹配，反之则表示两者之间没有任何相关性；其中： T'(x',y')＝T(x' ,y')‑1/(w·h)·∑x”,y”T(x”,y”) (3) I'(x+x',y+y')＝ I(x+x',y+y')‑1/(w·h)·∑x”,y”I(x+x”,y+y”) (4) (x,y)为当前循环时取出的图像b1的左上角平面直角坐标，代表循环的位置； (x',y')为图像b1中的各点相对左上角的偏移量； T(x',y')得到点在图像a1中的坐标，即图像a1左上角的坐标加偏移量； I(x+x',y+y')得到点在图像b1中的坐标，即图像b1左上角的坐标加偏移量； w和h分别为对应图像的宽和高； T(x”,y”)得到图像a1的点在完整EPI中的坐标； I(x+x”,y+y”)得到图像b1的点在完整EPI中的坐标；最后，将平均值进行降序排序，选择最大平均值对应的像素值作为目标像素；利用各目标像素值坐标计算其连线在水平EPI图像中的斜率信息，并转换到相应的[0, 255]灰度空间中作为初步深度估计结果；同理，将当前帧垂直EPI图像的宏像素块分割参考结果作为图像a2，将该图像中除去中心列外的其余像素行进行复制，形成新的复制图像b2；然后，将复制图像b2中各列逐像素循权　利　要　求　书 1/2 页 2 CN 115496790 A 2环与图像a2中像素，在多尺度空间中计算标准平方差Sq_diff与相关性系数R两种特征指标，并取平均值；将平均值进行降序排序，选择最大平均值对应的像素值作为目标像素；利用各目标像素值坐标计算其连线在垂直EPI图像中的斜率信息，并转换到相应的[ 0,255]灰度空间中作为初步深度估计结果；最后、通过初步估计结果利用计算机视觉中三角坐标映射法，获得三维匹配结果确定为目标像素的深度信息，即水平/垂直EPI图像中包含的原始像素的深度信息。 2.根据权利要求1所述的一种大基线光场视频深度估计方法，其特征在于，所述每组视频帧图像包括 N帧子孔径图像，每一帧子孔径图像分别对应一个视点。 3.根据权利要求1所述的一种大基线光场视频深度估计方法，其特征在于，所述生成各帧图像的水平EPI图像和垂直EPI图像，具体为：针对每帧子孔径图像，从第一行开始循环，从左至右依次提取相同高度值的像素点，组成该子孔径图像的水平EPI(宽像素外极平面)图像；同理，从第一列从上至下开始循环，依次提取相同宽度值的像素点，得到垂直EPI图像。 4.根据权利要求1所述的一种大基线光场视频深度估计方法，其特征在于，所述得到各帧水平/垂直EPI图像对应的宏像素块分割参考结果的过程为：首先，针对当前水平EPI图像，选择中心行水平宽像素进行梯度图模板检测，得到纹理分割结果；然后，对中心行再次进行Graph ‑based图像分割，得到其语义分割结果；对纹理和语义分割结果进行逻辑或运算判定，将水平EPI图像有相关性的原始宽像素定义为宏像素，得到该帧中的宏像素块分割参考结果；同理，针对当前垂直EPI图像，选择中心列垂直宽像素进行梯度图模板检测，得到纹理分割结果；然后，对中心列再次进行Graph ‑based图像分割，得到其语义分割结果；对纹理和语义分割结果进行逻辑或运算判定，将垂直EPI图像有相关性的原始宽像素定义为宏像素，得到该帧中的宏像素块分割参考结果。 5.根据权利要求1所述的一种大基线光场视频深度估计方法，其特征在于，所述目标像素的深度信息具体为：对所有的水平/垂直EPI图像的目标像素位置的深度数值加权平均，按坐标映射回原始视频帧，获得对应的视频帧的深度图输出结果。权　利　要　求　书 2/2 页 3 CN 115496790 A 3

专利 一种大基线光场视频深度估计方法

专利一种大基线光场视频深度估计方法