专利一种视频运动物体精确追踪方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210963640.7 (22)申请日 2022.08.11 (71)申请人广东警官学院（广东省公安司法管理干部学院）地址 510230 广东省广州市海珠区滨江东路500号 (72)发明人王宇飞　廖广军　 (74)专利代理机构广州开耀专利代理事务所 (普通合伙) 44708 专利代理师冯肖肖 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/762(2022.01)G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称一种视频运动物体精确追踪方法 (57)摘要本发明公开了一种视频运动物体精确追踪方法，主要步骤如下：对待检测视频进行分帧；获取各帧物体分割掩膜；获得各帧的光流图；利用 SLIC超像素分割算法，将各帧分割为2 000个超像素；利用DBSCAN聚类方法以平均光流特征对2 000 个超像素进行自动聚类，确定属于背景的超像素，并去除属于背景的物体掩膜；在视频首帧标定需要精确追踪的物体内部一个像素点的坐标；利用光流信息将包含指定像素的物体掩膜进行双向传播并加以优化；将各帧RGB、 HSV和CIELAB 颜色空间图像，光流图以及优化后的物体掩膜送入浅层全卷积网络，获得最终像素级分割结果；本方面通过综合利用复合颜色空间特征及光流信息，提升了视频中特定运动物体的精确追踪准确率。权利要求书3页说明书6页附图2页 CN 115294500 A 2022.11.04 CN 115294500 A 1.一种视频运动物体精确追踪方法，其特征在于，包括以下步骤： S1、对待检测视频进行分帧处理，得到各帧的帧图像，分别记为I0、 I1、 I2、…、 IN‑1，其中N 为视频总帧数； S2、利用像素级物体分割方法，对每一幅帧图像进行检测，获得各帧的物体掩膜，分别记为M0、 M1、 M2、…、 MN‑1； S3、对于第i幅帧图像Ii，选择其前后相邻的Ii‑3、 Ii‑2、 Ii‑1、 Ii+1、 Ii+2及Ii+3帧图像中的存在者，分别与Ii组合计算获得对应的稠密光流图，并进一步计算每一个像素点的平均光流，得到于第i幅帧图像对应的平均光流图，记为水平分量光流图Xi以及垂直分量光流图Yi， i∈ {0,1,2,…,N‑1}； S4、利用SLIC超像素分割算法将各幅帧图像分割为2000个超像素，将第i幅帧图像的第 j个超像素记为Sij，其中j∈{0,1,2, …,1999}； S5、计算每一个超像素中所有像素的平均光流，记为Vij； S6、对于第i幅帧图像，以其中各超像素的平均光流Vij为特征，利用DBSCAN聚类方法对 2000个超像素进行自动聚类，按类内超像素从多到少的顺序对类进行排列，将第i 帧第k个类别中包含超像素的数量记为Hik； S7、计算各类中所包含超像素的平均光流，将第i帧第k个类别的平均光流记为HVik； S8、将k＝0的类别作为背景，随后对k ＝1的类别进行检验，若其满足下式：则将k＝1的类别也作为背景，并继续检验k＝2的类别，式中|| ||表示光流向量的长度，·表示两个向量的内积，重复上述过程，直至第k类和第k+1类之间不满足上式，则停止检验，将此时作为背景类别中的所有超像素在对应帧的物体掩膜中置为背景，获得新的物体掩膜M’0、 M’1、 M’2、…、 M’N‑1； S9、在第0帧的帧图像I0中标记出需要精确追踪的运动物体，以该物体在M ’0中的掩膜作为初步物体掩膜，计算掩膜内所有像素的平均光流OV00； S10、检验所有与初步物体掩膜邻接或重叠的其他物体掩膜，计算其平均光流，将第l个相邻或重叠物体的平均光流记为OV0l，若满足：则认为第 l个物体与选择物体可进行合并，最终得到第0帧中所有可以作为选择物体的掩膜，记为Mb 0，其中b∈O， O表示所有被选择的物体的集合； S11、计算第0帧中处理后的需追踪物体掩膜，记为P0，其中P0(x,y)表示坐标(x,y)位置像素属于需追踪物体的概率，且有： S12、在获得第i ‑1帧的需追踪物体掩膜后，计算从第i ‑1帧到第i帧的光流，并将第i ‑1权　利　要　求　书 1/3 页 2 CN 115294500 A 2帧的需追踪物体掩膜映射到第i帧，得到映射追踪掩膜P Pi，且有：其中dxx,y表示在坐标(x,y)位置光流的水平分量， dyx,y表示在坐标(x,y)位置光流的垂直分量，表示向下取整； S13、将M’i中与PPi具有最大重合面积的物体作为第i帧的需追踪物体，其后按照S9至 S11的步骤计算得到第i帧处理后的需追踪物体掩膜Pi，其中在检验与初步物体掩膜邻接或重叠的其他物体掩膜时，需要进一步检验在 PPi中大于0.5，但在M ’i中为背景的区域，最终得到各帧的处理后需追踪物体掩膜P0、 P1、 P2、…、 PN‑1； S14、将第N ‑1帧的处理后需追踪物体掩膜PN‑1作为待输入需追踪物体掩膜P* N‑1； S15、在获得第i帧的待输入需追踪物体掩膜后，计算从第i帧到第i ‑1帧的光流，按S12 步骤将第i帧的待输入需追踪物体掩膜映射到第i ‑1帧，并按照S9至S11的步骤计算得到第 i‑1帧的待输入需追踪物体掩膜P* i‑1，最后得到各帧的待输入需追踪物体掩膜P* 0、 P* 1、 P * 2、…、 P* N‑1； S16、对帧图像I0、 I1、 I2、…、 IN‑1进行颜色空间变换，得到对应的HSV和CIELAB颜色空间，与原有的RGB颜色空间拼接得到9 通道特征图，其中各通道的数值通过除以所在通道取值的最大值归一化至[0,1]的区间； S17、对于第i帧图像，将9通道颜色空间特征图，水平分量光流图Xi，垂直分量光流图Yi，以及待输入需追踪物体掩膜P* i，组成12通道输入特征图，输入浅层全卷积网络，最终输出精确追踪结果Ri，其中Ri的尺寸与Ii相同，通道数为2，分别表示各像素属于需追踪物体及背景的概率，从而实现对视频中特定运动物体的像素级精确追踪。 2.根据权利要求1所述的一种视频运动物体精确追踪方法，其特征在于，所述S2步骤中，使用训练好的Mask R‑CNN网络对每一幅帧图像进行检测。 3.根据权利要求1所述的一种视频运动物体精确追踪方法，其特征在于，所述S3步骤中，利用训练好的Fl ownet 2.0网络获得稠密光流图。 4.根据权利要求1所述的一种视频运动物体精确追踪方法，其特征在于，所述S17步骤中，使用的浅层全卷积网络结构为：输入为12 ×H×W尺寸的特征图，其中H和W分别为帧图像的高和宽，接着依次为步幅stri de为1的128通道输出3 ×3卷积层， BN层，步幅stride为1 的 256通道输出3 ×3卷积层， BN层，步幅stride为1的128通道输出3 ×3卷积层， BN层，步幅 stride为1的2通道输出1 ×1卷积层，以及Softmax激活函数，最终输出各个像素属于前景物体或背景的2分类结果。 5.根据权利要求1所述的一种视频运动物体精确追踪方法，其特征在于，所述S17步骤中，使用的浅层全卷积网络在训练时利用均匀分布对网络参数进行初始化，使用Adam方法对参数进行优化，设置学习率为0.001，一阶平滑参数β1＝0.9，二阶平滑参数β2＝0.999，避免除以0的微小常数 ε＝10‑8，损失函数L 为：其中zx,y为训练样本中物体掩膜在坐标(x,y)位置的标签， 1表示前景需追踪物体， 0表权　利　要　求　书 2/3 页 3 CN 115294500 A 3

专利 一种视频运动物体精确追踪方法

专利一种视频运动物体精确追踪方法