(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211201978.5
(22)申请日 2022.09.29
(65)同一申请的已公布的文献号
申请公布号 CN 115273244 A
(43)申请公布日 2022.11.01
(73)专利权人 合肥工业大 学
地址 230009 安徽省合肥市包河区屯溪路
193号
(72)发明人 翟凯 欧阳波 杨善林
(74)专利代理 机构 北京久诚知识产权代理事务
所(特殊普通 合伙) 11542
专利代理师 余罡
(51)Int.Cl.
G06V 40/20(2022.01)
G06N 3/04(2006.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 20/40(2022.01)
G06V 20/64(2022.01)
G06V 40/10(2022.01)
(56)对比文件
CN 111209861 A,2020.0 5.29
CN 111444896 A,2020.07.24
CN 113191243 A,2021.07.3 0
CN 114898467 A,202 2.08.12
US 20213 50620 A1,2021.1 1.11
审查员 刘念
(54)发明名称
基于图神经网络的人体动作识别方法和系
统
(57)摘要
本发明提供一种基于图神经网络的人体动
作识别方法和系统, 涉及图像处理技术领域。 本
发明通过预先训练的基于图神经网络的人体动
作识别网络对输入视频进行处理, 输出动作分
类, 该人体动作识别网络包括2D关节识别网络、
3D关节识别网络和全连接分类层。 本发 明设计了
一种基于图神经网络的人体动作识别网络, 利用
带有短连接的下采样和对应上采样层来实现数
据的2D特征提取和关节点识别, 以此输出作为图
神经网络的骨架图输入, 从而输出准确的3D动作
从而从动作序列识别对应的动作分类, 避免出现
因缺少比较精确的2D关节信息从而导致3D动作
识别效果差的技 术问题, 实现精确的动作识别。
权利要求书5页 说明书13页 附图3页
CN 115273244 B
2022.12.20
CN 115273244 B
1.一种基于 图神经网络的人体动作识别方法, 其特征在于, 所述方法通过预先训练的
基于图神经网络的人体动作识别网络对输入视频进行处理, 输出动作分类, 该人体动作识
别网络包括2D关节识别网络、 3D关节识别网络和全连接分类层, 所述人体动作识别网络的
训练过程包括:
S1、 获取带有真值标签的数据集, 所述真值标签包括: 2D真值坐标、 3D真值坐标和真实
动作分类标签;
S2、 通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别, 得到
2D关节点热图, 基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,
优化预设的2D关节识别网络结构, 直至热图损失小于第一预设阈值时, 得到2D关节识别网
络;
S3、 通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值
位置, 得到帧级2D关节位置, 将所得到的帧级2D关节位置构建成时间序列骨架图并输入到
3D关节识别网络中, 得到3D关节位置, 根据3D关节位置和 3D真值坐标计算 帧级关节点位置
差损失loss1和帧级关节点合理性损失 loss2, 并计算 loss=α loss1+ (1‑α)loss2, 直至loss
小于第二预设阈值时, 得到 3D关节识别网络;
S4、 将2D关节识别网络、 3D关节识别网络和全连接分类层组合, 得到人体动作识别网
络;
S5、 将数据集中的视频输入到人体动作识别网络, 得到动作分类, 根据动作分类和真实
动作, 计算多分类交叉熵误差, 优化人体动作识别网络;
其中, 所述预设的2D关节识别网络结构为编码器解码器结构, 且编码器与解码器结构
对称; 其中, 编码器为下采样层提取全局特征, 解码器为上采样层恢复局部特征; 编码器分
为四个网络块, 块之 间进行下采样, 块内进 行卷积并维持尺 寸以进行短连接, 每个块的最后
输出为当前等级的特征图, 从输入到下采样的最后一个块的输出分别为下采样 图像特征
图、 下采样局部特 征图、 下采样提取 特征图和全局特 征图;
所述3D关节识别网络包括多个相同结构的图卷积块, 每个所述图卷积块包括一个分层
图卷积和一个时间卷积;
其中, 每个图卷积块的编码器解码器块结构相同, 且依次进行空间与时间的信 息更新,
具体为首 先对每帧图像进行多阶邻居空间信息聚合, 其中:
) d=1,2,3
其中,
表示为更新后的第 m+1层的d层邻居特征, Ad为第d层邻居骨架图, Xm为第m层
的特征,Md为第d层邻居的加权 权重矩阵,W为特征更新矩阵, d=1,2,3,表示对应3层邻居层;
获得每一层级特征, 通过
聚合各层级特征输出更新
后的节点特征, 对获得的更新后的特征图进行融合节点图获取全局信息, 具体为对更新后
的节点特征
进行分组融合 得到融合后的融合特征图特征
, 即
在融合特征
图上进行一阶邻居聚合:权 利 要 求 书 1/5 页
2
CN 115273244 B
2然后预定义的分组规则
其中,
为第m+1层加权聚合各层信息后的第 m+1层特征;
为第d层邻居的权重;
为第m+1层最终聚合更新后的第 i个节点的特征; β、δ、γ为权重, 是超参; a为按对称
空间骨架图分组规则聚合各组信息,
是指第i节点所对应的组的特征; A1为对称空
间骨架图邻居图,
分别为对称空间骨架图的加权权重矩阵和特征更新矩阵;
为2D全局特 征信息;
对于空间信息聚合, 采用空域图卷积邻居节点聚合每 个节点的特 征;
所述帧级关节点 合理性损失 loss2的计算方法包括:
其中,T为设计的输入3D 关节识别网络的视频帧数; F为符号函数, 如果值大于阈值输出
为1, 否则为0;
为3D关节识别网络; J为预定义的按骨连接的关节对索引; Q为每个不合理
骨骼误差惩罚; ytj0 为第t帧第j个关节索引对的第1个关节索引的3D相机坐标网络估计值,
ytj1 为第t帧第j个关节索引对的第2个关节索引的3D相机坐标网络估计值,
为第t帧
第j个关节索引对的第1个关节索引的3D相 机坐标标签真值,
为第t帧第j个关节索引
对的第2个关节索引的3D相机坐标 标签真值。
2.如权利要求1所述的基于图神经网络的人体动作识别方法, 其特征在于, 所述3D关节
识别网络还包括: 帧级自注意力层, 所述帧级自注意力层位于除最后一个图卷积块的所有
图卷积块后。
3.如权利要求1所述的基于图神经网络的人体动作识别方法, 其特征在于, 所述基于2D
关节点热图与关节 2D真值坐标生成的高斯热图进行计算热图损失包括:
其中,xuh为2D关节点热图的像素坐标值;
为关节2D真值坐标生成的高斯热图的像素
坐标值; U为热图横坐标像素 数;H为热图纵坐标像素 数。
4.如权利要求1~3任一所述的基于图神经网络的人体动作识别方法, 其特征在于, 所述
帧级关节点 位置差损失loss1的计算方法包括:权 利 要 求 书 2/5 页
3
CN 115273244 B
3
专利 基于图神经网络的人体动作识别方法和系统
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:57:36上传分享