行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211120747.1 (22)申请日 2022.09.15 (71)申请人 燕山大学 地址 066004 河北省秦皇岛市河北 大街西 段438号 (72)发明人 郭柏苍 纪丙东 金立生 姚航  许新亮 王胤霖 雒国凤  (74)专利代理 机构 北京市诚辉律师事务所 11430 专利代理师 吴敏 耿慧敏 (51)Int.Cl. G06V 20/59(2022.01) G06V 20/40(2022.01) G06V 10/77(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多层时空融合的轻量化驾驶人注意力 预测方法和装置 (57)摘要 本发明提供了一种基于多层时空融合的轻 量化驾驶人注意力预测方法和装置。 该方法包 括: 获取视频帧 提取并存储所述视 频帧 中连续帧间的多层级空间特征; 通过在时间维度融合所述多层级空间特征来生 成驾驶人的注 意力显著图; 基于所述驾驶人的注 意力显著图来输出驾驶人注意力预测结果。 通过 轻量化骨干和轻量化3D模块的设计有效提升了 驾驶场景中驾驶人注意力预测的速度。 本发明还 使用了多尺度策略提取动态 图像在不同层级上 的尺度信息, 使得网络可以充分的利用动态场景 的时间、 空间和尺度信息, 从而使得驾驶人注意 力预测的精度更高, 实现快速、 精确的感知驾驶 场景中潜在风险或提供决策所需关键信息, 增强 智能汽车的功能可理解 性和鲁棒 性。 权利要求书3页 说明书6页 附图3页 CN 115457521 A 2022.12.09 CN 115457521 A 1.基于多层时空融合的轻量 化驾驶人注意力预测方法, 其特 征在于, 包括: 获取视频帧 提取并存 储所述视频帧 中连续帧间的多层级空间特 征; 通过在时间维度融合所述多层级空间特 征来生成驾驶人的注意力显著图; 基于所述驾驶人的注意力显著图来输出驾驶人注意力预测结果。 2.根据权利要求1所述的基于多层时空融合的轻量化驾驶人注意力预测方法, 其特征 在于, 在所述获取视频帧 之后, 还包括: 对所述视频帧 将的图像进行尺寸调整处 理及标准 化处理; 所述尺寸调整处 理为将所述视频帧的RGB图像的尺寸缩放至 宽高为25 6×256; 所述标准化处理为利用Z ‑Score标准化对经过尺寸调整处理后的所述RGB图像分别在 R、 G、 B三个颜色通道上进 行标准化处理, 以生 成符合标准正态分布的标准化图像数据, 如公 式(1)所示: 其中, xi为对应颜色通道上的输入; 为对应颜色通道标准化后的输出;μi为数据集 训练集上对应颜色通道的图像亮度值均值, 分别为{0.471,0.448,0.408}; σi为对应的图像 亮度值标准差的平均值, 分别为{0.234,0.239,0.242}。 3.根据权利要求2所述的基于多层时空融合的轻量化驾驶人注意力预测方法, 其特征 在于, 还包括: 建立多层时空融合网络模型, 并利用该模型对 所述标准化图像数据进 行注意 力预测; 所述多层时空融合网络模型包括编码器和解码器两个模块, 所述编码器模块用于提取 并存储所述视频帧 中连续帧间的多层级空间特征, 所述解码 器模块用于通过在 时间维度融合所述编码器模块输出的多层级空间特 征来生成驾驶人的注意力显著图。 4.根据权利要求3所述的基于多层时空融合的轻量化驾驶人注意力预测方法, 其特征 在于, 在所述建立多层时空融合网络模 型之后, 还包括: 对所述多层时空融合网络模型进 行 训练; 对所述多层时空融合网络模型进行训练包括利用KL散度作为监督层上的损失函数lKL (G,S)对网络进行优化; 所述KL散度的计算公式如式(2)所示: 其中, G∈[0,1]为驾驶人注意力的真实标签, S∈[0,1]为模型预测出的显著性值, i为 每一点的像素值; 当网络经过迭代优化至损失值lKL(G,S)收敛时, 训练结束并保存 当前的网络参数, 然后 使用所述网络和网络参数进行驾驶人的注意力预测。 5.根据权利要求3所述的基于多层时空融合的轻量化驾驶人注意力预测方法, 其特征权 利 要 求 书 1/3 页 2 CN 115457521 A 2在于, 所述编码器模块包括特 征提取骨干和记 忆模块; 其中, 所述特征提取骨干用于使用轻量化网络MobileNetV2的全卷积层, 并且提取当前 输入帧 从Level‑1到Level ‑4四个层级上的特 征 作为骨干网络的输出; 所述记忆模块用于在时间维度上拼接 聚合当前帧It编码后的特征 和存储的历 史 帧Vt={It‑T+1,…,It‑1}中的特征 得到时间长度为T的特征张量后 传输给 所述解码器模块; 以及, 在当前帧It时刻模型执行完 毕后, 所述记忆模块去除It‑T+1时刻的特 征 保留It时刻的特征 依次迭代更新, 使得在执行下一时刻计算前记忆模块 中仅包含时间长度为T ‑1的特征张量, 并最后作用于It+1时刻。 6.根据权利要求3所述的基于多层时空融合的轻量化驾驶人注意力预测方法, 其特征 在于, 所述 解码器为并行多分支结构, 每 个所述分支结构包括时空融合层和预测层; 所述时空融合层包括3D下采样层、 轻量3D逆瓶颈层和三线性上采样层; 其中, 所述3D下采样层为卷积核尺寸为3 ×1×1、 步长为2 ×1×1、 填充为2 ×1×1的3D 卷积, 如公式(3)所示, 3D下采样层用于使得输入的时空特征仅在时间维下采样至原来的 而高度和宽度保持不变; 式中, M为输入特征尺寸, N为输出特征尺寸; K为卷积核尺寸, P为填充尺寸, S为步长; i 代表特征的维度, 即3D卷积所处 理的时间维T、 高度维H和宽度维W; 所述轻量3D逆瓶颈层包括第一卷积层、 第二卷积层和第三卷积层; 其中, 所述第一卷积层的卷积核大小为7 ×7×7的3D可分离卷积, 用于增大感受野的窗 口大小; 所述第二卷积层为扩 大通道宽度卷积核大小为 1×1×1的标准3D卷积, 膨胀比设置 为2; 所述第三卷积层为在时空融合过程中逐步缩减通道宽度的卷积核 大小为1×1×1的标 准3D卷积, 膨胀比设置为0.5; 所述三线性上采样层级联串联在每个所述轻量3D逆瓶颈层 之后, 用于将特征图的尺寸 扩大2倍, 并保持时间维长度不变; 所述预测层为带有si gmoid激活函数的卷积核大小为1 ×1×1的标准2D卷积, 用于将通 道数缩减为1, 所述Sigmo id函数如式(4)所示: 其中, 所述Sigmoid函数的输出范围为(0,1), 以使得所述预测层可将每一层的时空融 合特征映射为概率分布进行输出, 得到每个特征层级的显著性概率图, 然后将其在通道上 拼接并最终融合 生成预测的显著性图, 即驾驶人的注意力预测结果。 7.根据权利要求6所述的基于多层时空融合的轻量化驾驶人注意力预测方法, 其特征 在于, 所述时空融合层的每一层卷积后都加入批正则化和GELU激活函数, 用于增加网络的权 利 要 求 书 2/3 页 3 CN 115457521 A 3

.PDF文档 专利 基于多层时空融合的轻量化驾驶人注意力预测方法和装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多层时空融合的轻量化驾驶人注意力预测方法和装置 第 1 页 专利 基于多层时空融合的轻量化驾驶人注意力预测方法和装置 第 2 页 专利 基于多层时空融合的轻量化驾驶人注意力预测方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:57:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。