行业标准网
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211201978.5 (22)申请日 2022.09.29 (65)同一申请的已公布的文献号 申请公布号 CN 115273244 A (43)申请公布日 2022.11.01 (73)专利权人 合肥工业大 学 地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人 翟凯 欧阳波 杨善林  (74)专利代理 机构 北京久诚知识产权代理事务 所(特殊普通 合伙) 11542 专利代理师 余罡 (51)Int.Cl. G06V 40/20(2022.01) G06N 3/04(2006.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 20/40(2022.01) G06V 20/64(2022.01) G06V 40/10(2022.01) (56)对比文件 CN 111209861 A,2020.0 5.29 CN 111444896 A,2020.07.24 CN 113191243 A,2021.07.3 0 CN 114898467 A,202 2.08.12 US 20213 50620 A1,2021.1 1.11 审查员 刘念 (54)发明名称 基于图神经网络的人体动作识别方法和系 统 (57)摘要 本发明提供一种基于图神经网络的人体动 作识别方法和系统, 涉及图像处理技术领域。 本 发明通过预先训练的基于图神经网络的人体动 作识别网络对输入视频进行处理, 输出动作分 类, 该人体动作识别网络包括2D关节识别网络、 3D关节识别网络和全连接分类层。 本发 明设计了 一种基于图神经网络的人体动作识别网络, 利用 带有短连接的下采样和对应上采样层来实现数 据的2D特征提取和关节点识别, 以此输出作为图 神经网络的骨架图输入, 从而输出准确的3D动作 从而从动作序列识别对应的动作分类, 避免出现 因缺少比较精确的2D关节信息从而导致3D动作 识别效果差的技 术问题, 实现精确的动作识别。 权利要求书5页 说明书13页 附图3页 CN 115273244 B 2022.12.20 CN 115273244 B 1.一种基于 图神经网络的人体动作识别方法, 其特征在于, 所述方法通过预先训练的 基于图神经网络的人体动作识别网络对输入视频进行处理, 输出动作分类, 该人体动作识 别网络包括2D关节识别网络、 3D关节识别网络和全连接分类层, 所述人体动作识别网络的 训练过程包括: S1、 获取带有真值标签的数据集, 所述真值标签包括: 2D真值坐标、 3D真值坐标和真实 动作分类标签; S2、 通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别, 得到 2D关节点热图, 基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失, 优化预设的2D关节识别网络结构, 直至热图损失小于第一预设阈值时, 得到2D关节识别网 络; S3、 通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值 位置, 得到帧级2D关节位置, 将所得到的帧级2D关节位置构建成时间序列骨架图并输入到 3D关节识别网络中, 得到3D关节位置, 根据3D关节位置和 3D真值坐标计算 帧级关节点位置 差损失loss1和帧级关节点合理性损失 loss2, 并计算 loss=α loss1+ (1‑α)loss2, 直至loss 小于第二预设阈值时, 得到 3D关节识别网络; S4、 将2D关节识别网络、 3D关节识别网络和全连接分类层组合, 得到人体动作识别网 络; S5、 将数据集中的视频输入到人体动作识别网络, 得到动作分类, 根据动作分类和真实 动作, 计算多分类交叉熵误差, 优化人体动作识别网络; 其中, 所述预设的2D关节识别网络结构为编码器解码器结构, 且编码器与解码器结构 对称; 其中, 编码器为下采样层提取全局特征, 解码器为上采样层恢复局部特征; 编码器分 为四个网络块, 块之 间进行下采样, 块内进 行卷积并维持尺 寸以进行短连接, 每个块的最后 输出为当前等级的特征图, 从输入到下采样的最后一个块的输出分别为下采样 图像特征 图、 下采样局部特 征图、 下采样提取 特征图和全局特 征图; 所述3D关节识别网络包括多个相同结构的图卷积块, 每个所述图卷积块包括一个分层 图卷积和一个时间卷积; 其中, 每个图卷积块的编码器解码器块结构相同, 且依次进行空间与时间的信 息更新, 具体为首 先对每帧图像进行多阶邻居空间信息聚合, 其中: ) d=1,2,3 其中, 表示为更新后的第 m+1层的d层邻居特征, Ad为第d层邻居骨架图, Xm为第m层 的特征,Md为第d层邻居的加权 权重矩阵,W为特征更新矩阵, d=1,2,3,表示对应3层邻居层; 获得每一层级特征, 通过 聚合各层级特征输出更新 后的节点特征, 对获得的更新后的特征图进行融合节点图获取全局信息, 具体为对更新后 的节点特征 进行分组融合 得到融合后的融合特征图特征 , 即 在融合特征 图上进行一阶邻居聚合:权 利 要 求 书 1/5 页 2 CN 115273244 B 2然后预定义的分组规则 其中, 为第m+1层加权聚合各层信息后的第 m+1层特征; 为第d层邻居的权重; 为第m+1层最终聚合更新后的第 i个节点的特征; β、δ、γ为权重, 是超参; a为按对称 空间骨架图分组规则聚合各组信息, 是指第i节点所对应的组的特征; A1为对称空 间骨架图邻居图, 分别为对称空间骨架图的加权权重矩阵和特征更新矩阵; 为2D全局特 征信息; 对于空间信息聚合, 采用空域图卷积邻居节点聚合每 个节点的特 征; 所述帧级关节点 合理性损失 loss2的计算方法包括: 其中,T为设计的输入3D 关节识别网络的视频帧数; F为符号函数, 如果值大于阈值输出 为1, 否则为0; 为3D关节识别网络; J为预定义的按骨连接的关节对索引; Q为每个不合理 骨骼误差惩罚; ytj0 为第t帧第j个关节索引对的第1个关节索引的3D相机坐标网络估计值, ytj1 为第t帧第j个关节索引对的第2个关节索引的3D相机坐标网络估计值,  为第t帧 第j个关节索引对的第1个关节索引的3D相 机坐标标签真值,  为第t帧第j个关节索引 对的第2个关节索引的3D相机坐标 标签真值。 2.如权利要求1所述的基于图神经网络的人体动作识别方法, 其特征在于, 所述3D关节 识别网络还包括: 帧级自注意力层, 所述帧级自注意力层位于除最后一个图卷积块的所有 图卷积块后。 3.如权利要求1所述的基于图神经网络的人体动作识别方法, 其特征在于, 所述基于2D 关节点热图与关节 2D真值坐标生成的高斯热图进行计算热图损失包括: 其中,xuh为2D关节点热图的像素坐标值; 为关节2D真值坐标生成的高斯热图的像素 坐标值; U为热图横坐标像素 数;H为热图纵坐标像素 数。 4.如权利要求1~3任一所述的基于图神经网络的人体动作识别方法, 其特征在于, 所述 帧级关节点 位置差损失loss1的计算方法包括:权 利 要 求 书 2/5 页 3 CN 115273244 B 3

.PDF文档 专利 基于图神经网络的人体动作识别方法和系统

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于图神经网络的人体动作识别方法和系统 第 1 页 专利 基于图神经网络的人体动作识别方法和系统 第 2 页 专利 基于图神经网络的人体动作识别方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:57:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。