(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211120747.1
(22)申请日 2022.09.15
(71)申请人 燕山大学
地址 066004 河北省秦皇岛市河北 大街西
段438号
(72)发明人 郭柏苍 纪丙东 金立生 姚航
许新亮 王胤霖 雒国凤
(74)专利代理 机构 北京市诚辉律师事务所
11430
专利代理师 吴敏 耿慧敏
(51)Int.Cl.
G06V 20/59(2022.01)
G06V 20/40(2022.01)
G06V 10/77(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于多层时空融合的轻量化驾驶人注意力
预测方法和装置
(57)摘要
本发明提供了一种基于多层时空融合的轻
量化驾驶人注意力预测方法和装置。 该方法包
括: 获取视频帧
提取并存储所述视
频帧
中连续帧间的多层级空间特征;
通过在时间维度融合所述多层级空间特征来生
成驾驶人的注 意力显著图; 基于所述驾驶人的注
意力显著图来输出驾驶人注意力预测结果。 通过
轻量化骨干和轻量化3D模块的设计有效提升了
驾驶场景中驾驶人注意力预测的速度。 本发明还
使用了多尺度策略提取动态 图像在不同层级上
的尺度信息, 使得网络可以充分的利用动态场景
的时间、 空间和尺度信息, 从而使得驾驶人注意
力预测的精度更高, 实现快速、 精确的感知驾驶
场景中潜在风险或提供决策所需关键信息, 增强
智能汽车的功能可理解 性和鲁棒 性。
权利要求书3页 说明书6页 附图3页
CN 115457521 A
2022.12.09
CN 115457521 A
1.基于多层时空融合的轻量 化驾驶人注意力预测方法, 其特 征在于, 包括:
获取视频帧
提取并存 储所述视频帧
中连续帧间的多层级空间特 征;
通过在时间维度融合所述多层级空间特 征来生成驾驶人的注意力显著图;
基于所述驾驶人的注意力显著图来输出驾驶人注意力预测结果。
2.根据权利要求1所述的基于多层时空融合的轻量化驾驶人注意力预测方法, 其特征
在于, 在所述获取视频帧
之后, 还包括:
对所述视频帧
将的图像进行尺寸调整处 理及标准 化处理;
所述尺寸调整处 理为将所述视频帧的RGB图像的尺寸缩放至 宽高为25 6×256;
所述标准化处理为利用Z ‑Score标准化对经过尺寸调整处理后的所述RGB图像分别在
R、 G、 B三个颜色通道上进 行标准化处理, 以生 成符合标准正态分布的标准化图像数据, 如公
式(1)所示:
其中, xi为对应颜色通道上的输入;
为对应颜色通道标准化后的输出;μi为数据集
训练集上对应颜色通道的图像亮度值均值, 分别为{0.471,0.448,0.408}; σi为对应的图像
亮度值标准差的平均值, 分别为{0.234,0.239,0.242}。
3.根据权利要求2所述的基于多层时空融合的轻量化驾驶人注意力预测方法, 其特征
在于, 还包括: 建立多层时空融合网络模型, 并利用该模型对 所述标准化图像数据进 行注意
力预测;
所述多层时空融合网络模型包括编码器和解码器两个模块, 所述编码器模块用于提取
并存储所述视频帧
中连续帧间的多层级空间特征, 所述解码 器模块用于通过在
时间维度融合所述编码器模块输出的多层级空间特 征来生成驾驶人的注意力显著图。
4.根据权利要求3所述的基于多层时空融合的轻量化驾驶人注意力预测方法, 其特征
在于, 在所述建立多层时空融合网络模 型之后, 还包括: 对所述多层时空融合网络模型进 行
训练;
对所述多层时空融合网络模型进行训练包括利用KL散度作为监督层上的损失函数lKL
(G,S)对网络进行优化;
所述KL散度的计算公式如式(2)所示:
其中, G∈[0,1]为驾驶人注意力的真实标签, S∈[0,1]为模型预测出的显著性值, i为
每一点的像素值;
当网络经过迭代优化至损失值lKL(G,S)收敛时, 训练结束并保存 当前的网络参数, 然后
使用所述网络和网络参数进行驾驶人的注意力预测。
5.根据权利要求3所述的基于多层时空融合的轻量化驾驶人注意力预测方法, 其特征权 利 要 求 书 1/3 页
2
CN 115457521 A
2在于, 所述编码器模块包括特 征提取骨干和记 忆模块;
其中, 所述特征提取骨干用于使用轻量化网络MobileNetV2的全卷积层, 并且提取当前
输入帧
从Level‑1到Level ‑4四个层级上的特 征
作为骨干网络的输出;
所述记忆模块用于在时间维度上拼接 聚合当前帧It编码后的特征
和存储的历 史
帧Vt={It‑T+1,…,It‑1}中的特征
得到时间长度为T的特征张量后 传输给
所述解码器模块; 以及, 在当前帧It时刻模型执行完 毕后, 所述记忆模块去除It‑T+1时刻的特
征
保留It时刻的特征
依次迭代更新, 使得在执行下一时刻计算前记忆模块
中仅包含时间长度为T ‑1的特征张量, 并最后作用于It+1时刻。
6.根据权利要求3所述的基于多层时空融合的轻量化驾驶人注意力预测方法, 其特征
在于, 所述 解码器为并行多分支结构, 每 个所述分支结构包括时空融合层和预测层;
所述时空融合层包括3D下采样层、 轻量3D逆瓶颈层和三线性上采样层;
其中, 所述3D下采样层为卷积核尺寸为3 ×1×1、 步长为2 ×1×1、 填充为2 ×1×1的3D
卷积, 如公式(3)所示, 3D下采样层用于使得输入的时空特征仅在时间维下采样至原来的
而高度和宽度保持不变;
式中, M为输入特征尺寸, N为输出特征尺寸; K为卷积核尺寸, P为填充尺寸, S为步长; i
代表特征的维度, 即3D卷积所处 理的时间维T、 高度维H和宽度维W;
所述轻量3D逆瓶颈层包括第一卷积层、 第二卷积层和第三卷积层;
其中, 所述第一卷积层的卷积核大小为7 ×7×7的3D可分离卷积, 用于增大感受野的窗
口大小; 所述第二卷积层为扩 大通道宽度卷积核大小为 1×1×1的标准3D卷积, 膨胀比设置
为2; 所述第三卷积层为在时空融合过程中逐步缩减通道宽度的卷积核 大小为1×1×1的标
准3D卷积, 膨胀比设置为0.5;
所述三线性上采样层级联串联在每个所述轻量3D逆瓶颈层 之后, 用于将特征图的尺寸
扩大2倍, 并保持时间维长度不变;
所述预测层为带有si gmoid激活函数的卷积核大小为1 ×1×1的标准2D卷积, 用于将通
道数缩减为1, 所述Sigmo id函数如式(4)所示:
其中, 所述Sigmoid函数的输出范围为(0,1), 以使得所述预测层可将每一层的时空融
合特征映射为概率分布进行输出, 得到每个特征层级的显著性概率图, 然后将其在通道上
拼接并最终融合 生成预测的显著性图, 即驾驶人的注意力预测结果。
7.根据权利要求6所述的基于多层时空融合的轻量化驾驶人注意力预测方法, 其特征
在于, 所述时空融合层的每一层卷积后都加入批正则化和GELU激活函数, 用于增加网络的权 利 要 求 书 2/3 页
3
CN 115457521 A
3
专利 基于多层时空融合的轻量化驾驶人注意力预测方法和装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:57:38上传分享