行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210444849.2 (22)申请日 2022.04.26 (71)申请人 重庆邮电大 学 地址 400065 重庆市南岸区崇文路2号 (72)发明人 王诗言 张青松 雷国芳  (51)Int.Cl. G06T 7/246(2017.01) G06T 7/215(2017.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/774(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/28(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于掩膜信息的在线更新目标跟踪方 法 (57)摘要 本发明公开了一种基于掩膜信息的在线更 新目标跟踪方法, 涉及计算机视觉, 目标跟踪技 术领域。 该方法主要由特征提取模块、 目标定位 模块、 目标分割模块和细化模块组成, 为了保持 跟踪算法的实时性, 本方法选择使用ResNet ‑18 的前三层特征作为骨干特征网络, 细化模块的输 入为图片本身, 其对图片直接使用细粒度模块提 取特征, 意在最大程度保留目标的细节信息。 网 络首先对目标图片进行特征提取, 将得到的特征 输入到目标定位模块中, 得到目标鲁棒的定位信 息并每隔25帧对该模块网络参数进行在线更新, 再将定位信息输入到目标分割模块中, 得到目标 的预测掩膜, 最终通过细粒度模块进行上采样还 原为输入尺寸, 得到目标的跟踪结果。 权利要求书2页 说明书4页 附图2页 CN 114998382 A 2022.09.02 CN 114998382 A 1.一种基于掩膜信息的在线更新目标跟踪方法, 包括以下步骤: S1: 目标区域选取: 从视频序列初始帧中选取要跟踪的目标 区域, 主要采取人机交互指 定或者目标检测方法自动提取; S2: 训练数据集的制作: 本方法采用了Youtube ‑VOS数据集中的训练集进行训练。 首先 通过在同一视频序列的80帧的范围内进行均匀采样的图像对和 其对应的真实分割掩膜进 行训练, 初始采样大小为384 ×384像素级, 在目标 大小的4倍范围内进行 特征提取。 S3: 目标定位模块的构 建: 首先对提取后的特征使用1 ×1的卷积进行特征降维, 然后输 入到定位模块中, 由于目标定位模块的功能是提供目标的精确中心位置, 本模块的目标是 希望它能不受目标的大小和形状的影响, 并且它可以通过最小化分类错误增强前背景判别 力, 该算法的目标定位模块是一个两层的全卷积层, 定义 为: f(x; w)=φ2(w2*φ1(w1*x)) 上式中, x是经过backbone网络得到的输入图像的特征图, w={w1,w2}是两层卷积网络 的参数, φ是激活函数, 这里采用P ELU, *表示标准的64通道卷积操作, 所以目标定位模块学 习的目标函数定义 为以下形式, 类似于L2正则化: 其中, w是在线学习的卷积核的参数, yj代表目标位置的置信 度, 如果采用传统的随机梯 度下降, 就会很难达到实时性的要求, 因此本模块采用二阶的优化算法, 先把正则项的表达 式和残差项表达式统一 起来, 令: 其中, j从1到m代表输入的每一帧图像, 这里的k取值1和2分别代表两层 卷积, 那么Loss 函数可以写成更简单的形式: L(w)=||γ(w)||2 根据高斯牛顿近似忽略二阶微分的原理, 首先在w+Δw处对γ(w)进行一阶泰勒展开就 可以得到: γ(w+Δw)≈γw+JwΔw 那么, 代入L(w+Δw)即为下式: 其中, Jw代表γ对w的雅克比矩阵, 现在需要做的就是用Δw对w进行更新, 可令L(w+Δ w)‑L(w)对Δw求导得到Δw的解析解, 即 由于 正定, 故可采用共轭梯度 下降求解, 由此实现了 分类模块的快速在线更新策略, 最 终输出得到2 4×24×1的定位得分 响应图, 其中得分最高的位置就是跟踪目标的中心位置 。 S4: 构建目标分割模块: 目标分割模块负责预测目标的二进制掩膜信息, 由于选择引入 目标掩膜信息去进行目标跟踪, 该任务就变成了逐像素 的跟踪任务, 不可避免的会引入大 量的背景杂波, 很容易生成假阳性预测, 造成识别目标的前背景信息困难。 针对此问题, SiamMask算法使用硬性空间约束的方法去缓解, 即在跟踪中首先对目标生成包裹的边界权 利 要 求 书 1/2 页 2 CN 114998382 A 2框, 然后在边界框内进行目标的掩膜信息预测, 之后拟合出更为精细的边界框。 然而, 这种 方法是有缺陷的, 如果在跟踪过程中生成的边界框约束是错误的, 就会导致接下来的目标 掩膜信息预测错误, 这会限制算法所能达到的精度。 所以, 本文提出一种软空间约束的方 法, 该方法通过建立一个掩膜信息空间概率图引导网络进行精确分割。 首先提取目标初始 帧的掩膜信息, 将其进行下采样维度变换, 记作M∈R1×(24×24), 然后将从骨干网络得到的初 始帧特征T0和当前帧特征Tn分别进行维度变换至T0∈R(24×24)×64, Tn∈R64×(24×24), 生成的空间 概率图记作S。 其具体操作可以由公式表示: S=M⊙T0⊙Tn 具体来说, 通过初始帧掩膜信息M与初始帧特征T0进行点积操作得到初始帧特征的前背 景信息, 然后与当前帧特征Tn进行点积操作, 再通过Softmax激 活函数得到一 张目标的掩膜 信息的空间概 率图, 并在最后输出一张24*24的目标二 值掩膜信息图。 目标分割网络构建完成后, 使用步骤S2生成的训练集对目标分割网络进行训练, 为了 进一步优化网络训练, 训练阶段采用Adam优化器, 初始学习率设置为0.001, 每10次迭代进 行一次学习率衰减, 衰减幅度为0.1, BatchSize大小为32, 一共训练40个迭代, 每 次迭代训 练1000次。 本次使用的设备为NVIDIA  GeForce GTX 1080, , 使用的损失函数为预测目标掩 膜和真实目标掩膜之间的交叉熵。 S5: 细粒度信息模块的构 建: 本文选择使用6个3 ×3的卷积和1 ×1的卷积去构 建这个模 块, 通道数都设置为64, 最终的输出特征图是原图片大小的1/8, 最后将输出的特征图与得 到的分割特征图进行相加操作再通过上采样恢复到图像原来的大小384*384, 最终得到目 标的含有细粒度信息的分割结果图。 S6: 目标边界框的生成: 目标跟踪任务的输出表征方式是一个包裹目标的边界框, 本网 络的输出是一个目标 的分割概率图, 所以需要对网络输出进行简单 的处理。 首先将预测得 到的目标分割概率图 以0.5作为阈值进 行二值化, 得到目标的二值分割掩膜。 然后保留掩膜 内最大的连通区域, 并使用最小二乘法将椭圆拟合到其轮廓上, 最后生成由椭圆的中心、 长 短轴所构成的旋转目标边界框 。 S7:网络在线更新: 在成功跟踪目标之后, 将步骤S6得到的目标定位信息, 输入到目标 定位模块中, 按照S6里面的更新算法进行网络参数的更新, 设定每25帧进行一次网络在线 更新, 使用数据增强技 术生成样本, 包括裁 剪、 尺度变换等。权 利 要 求 书 2/2 页 3 CN 114998382 A 3

PDF文档 专利 一种基于掩膜信息的在线更新目标跟踪方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于掩膜信息的在线更新目标跟踪方法 第 1 页 专利 一种基于掩膜信息的在线更新目标跟踪方法 第 2 页 专利 一种基于掩膜信息的在线更新目标跟踪方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。