专利一种基于关节点序列的实时人体动作识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210488932.X (22)申请日 2022.05.06 (71)申请人山东省人工智能研究院地址 250013 山东省济南市历下区科院路 19号申请人齐鲁工业大学 (72)发明人王字成　李金宝　舒明雷　 (74)专利代理机构济南泉城专利商标事务所 37218 专利代理师支文彬 (51)Int.Cl. G06V 40/20(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/44(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于关节点序列的实时人体动作识别方法 (57)摘要一种基于关节点序列的实时人体动作识别方法，利用深度相机、二维人体姿态检测模型，较容易的获取人体动作序列数据集，输入到人体动作识别网络中，可以实时的判断被测试者展示的动作，且不限制被测试者的自由。本发明的人体动作网络模型可以很好的利用图像帧之间的姿态特征，较好的捕捉被测试者动作的空间特征和时空特征。同时，对人体动作序列数据的预处理方法可以显著地去除相邻帧之间的冗余姿态信息，有效减少人体姿态识别网络的开销。权利要求书3页说明书8页附图5页 CN 114863561 A 2022.08.05 CN 114863561 A 1.一种基于关节点序列的实时人体动作识别方法，其特征在于，包括如下步骤： a)采集人体姿态图像和人体动作序列数据； b)预处理获取的人体姿态图像和人体动作序列数据； c)使用预处理后的人体姿态图像训练P P‑TinyPose模型； d)构建人体动作识别网络，该网络依次由N个处理单元及Softmax层构成，每个处理单元由自注意力模块和多头注意力模块构成，所述自注意力模块依次由第一归一化层、自注意力层、第二归一化层、多层感知机层构成，所述多头注意力模块依次由第一归一化层、多头注意力层、第二归一化层、多层感知机层构成； e)将预处理后的人体动作序列转化为多维向量self_vector1，将多维向量self_ vector1输入到第一处理单元的自注意力模块中，经过第一归一化层后输出得到向量self_ vector1′，向量self_vector1′经过自注意力层后输出得到单帧动作序列特征SF1′，将多维向量self_vector1与单帧动作序列特征SF1′相加得到特征SF1″，将求和特征SF1″输入到第二归一化层后输出得到特征self_vector1″，将特征self_vector1″输入到多层感知机层后输出得到映射特征SF1″ ′，将映射特征SF1″ ′与求和特征SF1″相加得到自注意力模块学习的特征SF1，将特征SF1输入到多头注意力模块中，经多头注意力模块中的第一归一化层后输出得到特征mul_vecror1′，将特征mul_vector1′输入到多头注意力层后输出得到多帧动作序列特征MF1′，将多帧动作序列特征MF1′与特征SF1相加得到特征MF1″，将特征MF1″输入到多头注意力模块中的第二归一化层中输出得到特征mul_vector1，将特征mul_vector1输入到多层感知机层，输出得到映射特征MF1″ ′，将映射特征MF1″ ′与特征MF1″相加后作为第一处理单元的输出特征MF1； f)将MF1替代步骤e)中的多维向量self_vector1，使MF1输入到第二处理单元中，输出得到特征MF2； g)将前一个处理单元输出特征作为后一个处理单元的输入，重复步骤f)，直至得到第N 个处理单元输出的特征MFN，将特征MFN输入到Softmax层得到各个人体动作所属的概率值，将最大概率值所对应的人体动作类别作为识别结果进行输出； h)训练人体动作识别网络，得到训练后的人体动作识别网络； i)利用深度相机实时捕捉被测试者展示的人体动作，获得采集的人体姿态图像，将人体姿态图像输入到训练后的PP ‑TinyPose模型中同时利用二维人体姿态检测模型 Mediapipe不断获取人体关节点三维坐标，当PP ‑TinyPose模型判断一人体姿态图像为某一人体动作的起始姿态时，开始采集人体动作序列数据，将人体动作序列数据进行预处理，当 PP‑TinyPose模型判断一人体姿态图像为某一人体动作的结束姿态时，停止采集人体动作序列数据； j)将步骤i)中获得的起始姿态与结束姿态区间范围内预处理后的人体动作序列数据送入到训练好的人体动作识别网络中，得到动作类别。 2.根据权利要求1所述的基于关节点序列的实时人体动作识别方法，其特征在于：步骤 a)中采集人体姿态图像的步骤为： a‑1.1)将一个深度相机与电脑相连，通过深度相机捕捉人体姿态图像； a‑1.2)将深度相机捕捉的人体姿态图像的彩色帧colorframe和深度帧depthframe进行对齐操作，得到对齐帧al ignframe；权　利　要　求　书 1/3 页 2 CN 114863561 A 2a‑1.3)将对齐帧alignframe送入二维人体姿态检测模型Mediapipe中，检测得到人体 12个关节点，第i个人体二维关节点坐标为为第i个人体二维关节点的横坐标，为第i个人体二维关节点的纵坐标， i∈{1,2,. ..,12}； a‑1.4)通过pyreal sense2函数库中的getdata()函数获取彩色帧colorframe的图像数据信息，通过numpy函数库中的numpy.asanyarray()函数将彩色帧colorframe的图像数据信息转换为数组，完成将人体姿态的彩色帧colorframe转化为彩色图的人体姿态图像 colorimage。 3.根据权利要求1所述的基于关节点序列的实时人体动作识别方法，其特征在于：步骤 a)中采集人体动作序列数据的步骤为： a‑2.1)通过pyrealsense2函数库中的depthframe.get()函数检测二维关节点坐标得到第i个关节点与深度相机之间的深度距离 a‑2.2)单帧第i个人体关节点三维坐标为为单帧第i个人体关节点的X轴坐标值，为单帧第i个人体关节点的Y轴坐标值，为单帧第i个人体关节点的Z轴坐标值，式中ppx为深度相机投影中心的横坐标， ppy为深度相机投影中心的纵坐标， fx为深度相机的焦距的横坐标， fy为深度相机的焦距的纵坐标； a‑2.3)将人体动作序列数据表示为 M为人体动作的帧数。 4.根据权利要求2所述的基于关节点序列的实时人体动作识别方法，其特征在于：步骤 a‑1)中深度相机为 Intel RealSense Depth Camera D435型深度相机。 5.根据权利要求3所述的基于关节点序列的实时人体动作识别方法，其特征在于：步骤 b)的步骤为： b‑1)从采集人体姿态图像中根据人体动作，人工筛选出该动作的起始姿态图像和结束姿态图像，将起始姿态图像和结束姿态图像进行标注，丢弃剩余图像； b‑2)将起始姿态图像和结束姿态图像分辨率修改为320 ×320，完成人体姿态图像的预处理； b‑3)通过公式计算得到第m帧人体动作的关节点坐标累加和(Xm,Ym,Zm)， m∈{1,2,. ..,M}； b‑4)通过公式计算得到第m+1帧人体动权　利　要　求　书 2/3 页 3 CN 114863561 A 3

专利 一种基于关节点序列的实时人体动作识别方法

专利一种基于关节点序列的实时人体动作识别方法