(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210963640.7
(22)申请日 2022.08.11
(71)申请人 广东警官 学院 (广东省公安司法管
理干部学院)
地址 510230 广东省广州市海珠区滨江东
路500号
(72)发明人 王宇飞 廖广军
(74)专利代理 机构 广州开耀专利代理事务所
(普通合伙) 44708
专利代理师 冯肖肖
(51)Int.Cl.
G06V 20/40(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/762(2022.01)G06V 10/774(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种视频运动物体精确追 踪方法
(57)摘要
本发明公开了一种视频运动物体精确追踪
方法, 主要 步骤如下: 对待检测视频进行分帧; 获
取各帧物体分割掩膜; 获得各帧的光流图; 利用
SLIC超像素分割算法, 将各帧分割为2 000个超像
素; 利用DBSCAN聚类方法以平均光流特征对2 000
个超像素进行自动聚类, 确定属于背景的超像
素, 并去除属于背景的物体掩膜; 在视频首帧标
定需要精确追踪的物体内部一个像素点的坐标;
利用光流信息将包含指定像素的物体掩膜进行
双向传播并加以优化; 将各帧RGB、 HSV和CIELAB
颜色空间图像, 光流图以及优化后的物体掩膜送
入浅层全卷积网络, 获得最终像素级分割结果;
本方面通过综合利用复合颜色空间特征及光流
信息, 提升了视频中特定运动物体的精确追踪准
确率。
权利要求书3页 说明书6页 附图2页
CN 115294500 A
2022.11.04
CN 115294500 A
1.一种视频运动物体精确追踪方法, 其特 征在于, 包括以下步骤:
S1、 对待检测视频进行分帧处理, 得到各帧的帧图像, 分别 记为I0、 I1、 I2、…、 IN‑1, 其中N
为视频总帧数;
S2、 利用像素级物体分割方法, 对每一幅帧图像进行检测, 获得各帧的物体掩膜, 分别
记为M0、 M1、 M2、…、 MN‑1;
S3、 对于第i幅帧图像Ii, 选择其前后相邻的Ii‑3、 Ii‑2、 Ii‑1、 Ii+1、 Ii+2及Ii+3帧图像中的存
在者, 分别与Ii组合计算获得对应的稠密 光流图, 并进一步计算每一个像素点的平均光流,
得到于第i幅帧图像对 应的平均光流图, 记为 水平分量光流图Xi以及垂直分量光流图Yi, i∈
{0,1,2,…,N‑1};
S4、 利用SLIC超像素分割算法将各幅帧图像分割为2000个超像素, 将第i幅帧图像的第
j个超像素记为Sij, 其中j∈{0,1,2, …,1999};
S5、 计算每一个超像素中所有像素的平均光 流, 记为Vij;
S6、 对于第i幅帧图像, 以其中各超像素 的平均光流Vij为特征, 利用DBSCAN聚类方法对
2000个超像素进行自动聚类, 按类内超像素从多到少的顺序对类进行排列, 将第i 帧第k个
类别中包 含超像素的数量记为Hik;
S7、 计算各类中所包 含超像素的平均光 流, 将第i帧第k个 类别的平均光 流记为HVik;
S8、 将k=0的类别作为背景, 随后对k =1的类别进行检验, 若其满足下式:
则将k=1的类别也作为背景, 并继续检验k=2的类别, 式中|| ||表示光流向量的长
度,·表示两个向量的内积, 重复上述过程, 直至第k类和第k+1类之间不满足上式, 则停止
检验, 将此时作为背景类别中的所有超像素在对应 帧的物体掩膜中置为背景, 获得新的物
体掩膜M’0、 M’1、 M’2、…、 M’N‑1;
S9、 在第0帧的帧图像I0中标记出需要精确追踪的运动物体, 以该物体在M ’0中的掩膜作
为初步物体掩膜, 计算掩膜内所有像素的平均光 流OV00;
S10、 检验所有与初步物体掩膜邻接或重叠的其他物体掩膜, 计算其平均光流, 将第l个
相邻或重 叠物体的平均光 流记为OV0l, 若满足:
则认为第 l个物体与选择物体可进行合并, 最终得到第0帧中所有可以作为选择物体的
掩膜, 记为Mb
0, 其中b∈O, O表示所有被选择的物体的集 合;
S11、 计算第0帧中处理后的需追踪物体掩膜, 记为P0, 其中P0(x,y)表示坐标(x,y)位置
像素属于需追踪物体的概 率, 且有:
S12、 在获得第i ‑1帧的需追踪物体掩膜后, 计算从第i ‑1帧到第i帧的光流, 并将第i ‑1权 利 要 求 书 1/3 页
2
CN 115294500 A
2帧的需追踪物体掩膜映射到第i帧, 得到映射追踪掩膜P Pi, 且有:
其中dxx,y表示在坐标(x,y)位置光流的水平分量, dyx,y表示在坐标(x,y)位置光流的垂
直分量,
表示向下 取整;
S13、 将M’i中与PPi具有最大重合面积的物体作为第i帧的需追踪物体, 其后按照S9至
S11的步骤计算得到第i帧处理后的需追踪物体掩膜Pi, 其中在检验与初 步物体掩膜邻接或
重叠的其他物体掩膜时, 需要进一步检验在 PPi中大于0.5, 但在M ’i中为背景的区域, 最终得
到各帧的处 理后需追踪物体掩膜P0、 P1、 P2、…、 PN‑1;
S14、 将第N ‑1帧的处理后需追踪物体掩膜PN‑1作为待输入需追踪物体掩膜P*
N‑1;
S15、 在获得第i帧的待输入需追踪物体掩膜后, 计算从第i帧到第i ‑1帧的光流, 按S12
步骤将第i帧的待输入需追踪物体掩膜映射到第i ‑1帧, 并按照S9至S11的步骤计算得到第
i‑1帧的待输入需追踪物体掩膜P*
i‑1, 最后得到各帧的待输入需追踪物体掩膜P*
0、 P*
1、 P
*
2、…、 P*
N‑1;
S16、 对帧图像I0、 I1、 I2、…、 IN‑1进行颜色空间变换, 得到对应的HSV和CIELAB颜色空间,
与原有的RGB颜色空间拼接得到9 通道特征图, 其中各通道的数值通过除以所在通道取值的
最大值归一 化至[0,1]的区间;
S17、 对于第i帧 图像, 将9通道颜 色空间特征图, 水平分量光流图Xi, 垂直分量光流图Yi,
以及待输入需追踪物体掩膜P*
i, 组成12通道输入特征图, 输入浅层全卷积网络, 最终输出精
确追踪结果Ri, 其中Ri的尺寸与Ii相同, 通道数为2, 分别表 示各像素属于需追踪物体及 背景
的概率, 从而实现对视频中特定运动物体的像素级精确追踪。
2.根据权利要求1所述的一种视频运动物体精确追踪方法, 其特征在于, 所述S2步骤
中, 使用训练好的Mask R‑CNN网络对每一幅帧图像进行检测。
3.根据权利要求1所述的一种视频运动物体精确追踪方法, 其特征在于, 所述S3步骤
中, 利用训练好的Fl ownet 2.0网络获得稠密光 流图。
4.根据权利要求1所述的一种视频运动物体精确追踪方法, 其特征在于, 所述S17步骤
中, 使用的浅层 全卷积网络结构为: 输入为12 ×H×W尺寸的特征图, 其中H和W分别为帧图像
的高和宽, 接着依次为步幅stri de为1的128通道输出3 ×3卷积层, BN层, 步幅stride为1 的
256通道输出3 ×3卷积层, BN层, 步幅stride为1的128通道输出3 ×3卷积层, BN层, 步幅
stride为1的2通道输出1 ×1卷积层, 以及Softmax激活函数, 最终输出各个像素属于前景物
体或背景的2分类结果。
5.根据权利要求1所述的一种视频运动物体精确追踪方法, 其特征在于, 所述S17步骤
中, 使用的浅层全卷积网络在训练时利用均匀分布对网络参数进行初始化, 使用Adam方法
对参数进行优化, 设置学习率为0.001, 一阶平滑参数β1=0.9, 二阶平滑参数β2=0.999, 避
免除以0的微小常数 ε=10‑8, 损失函数L 为:
其中zx,y为训练样本中物体掩膜在坐标(x,y)位置 的标签, 1表示前景需追踪物体, 0表权 利 要 求 书 2/3 页
3
CN 115294500 A
3
专利 一种视频运动物体精确追踪方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:56:46上传分享