行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210448144.8 (22)申请日 2022.04.27 (71)申请人 哈尔滨理工大 学 地址 150080 黑龙江省哈尔滨市南岗区学 府路52号哈尔滨理工大 学西区 (72)发明人 徐军 高辉  (51)Int.Cl. G06V 40/20(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度学习的实时手语手势识别系 统 (57)摘要 本发明公开一种基于深度学习的实时手语 手势识别系统, 目的是解决现有利用手部骨骼关 节点识别手语手势成本昂贵的问题; 目前想获取 手部骨骼关节 点的三维坐标, 需要使用可穿戴式 的设备或者使用深度摄像头, 使得 实验成本大大 增加, 所以本发明利用谷歌M ediaPipe框架, 只需 要使用一个普通摄像头来获得手部的三维坐标 点; 再通过训练好的深度神经网络GoogLeNet模 型, 实现实时手语手势识别; 同时, 本发 明相较于 传统的图像处理方式, 速度更快, 准确率更高, 大 大提高工作效率。 权利要求书1页 说明书3页 附图1页 CN 114821783 A 2022.07.29 CN 114821783 A 1.一种基于深度学习的实时手 语手势识别系统, 其特 征在于, 所述方法包括: 步骤一、 利用MediaPipe框架获取手 语字母各个特 征点的三维坐标信息; 步骤二、 根据手部的特征点的三维坐标信息计算各个关节点到手腕特征点的欧式距 离; 步骤三、 根据上述特征信息计算的欧氏距离组成数列, 带入卷积神经网络模型进行预 分类, 利用三元组损失函数TripletL oss最终识别出待识别的手 语手势; 步骤四、 取 连续m帧识别的手 语手势相一 致的结果作为 最终确定的识别结果。 2.根据权利要求1所述的方法, 其特征在于, 所述步骤二具体为: 将收集到的手部特征 点三维坐标计算出与在手腕特征点的空间距离, 形成一个多维数组, 作为手语手势输入的 特征信息。 3.根据权利要求1所述的方法, 其特征在于, 所述步骤三具体为: 通过Medi aPipe框架得 到的一组数据, 通过卷积神经网络模型GoogLeNet, 损失函数选择使用三元组损失函数 TripletLoss, 利用三元 组损失的函数, 拉近相似度高的样 本距离, 远离相似度低的距离, 最 后根据最大概 率和最近邻匹配准则识别出当前帧的手 语手势。 4.根据权利要求1所述的方法, 其特征在于, 所述步骤四具体为: 连续读取当前帧的状 态, 取连续m帧识别的手 语手势相一 致的结果作为 最终预测结果。权 利 要 求 书 1/1 页 2 CN 114821783 A 2一种基于深度学习的实时手语手势识别系统 技术领域 [0001]本发明涉及人工智能领域, 尤其涉及一种基于深度学习 的实时手语手势识别系 统。 背景技术 [0002]据世界卫生组织的数据统计, 全球患有听力障碍的疾病的人数超过2.5亿。 对于普 通人来说一般采用口语结合书面语的方式, 适当配合身体姿势和人 的表情来进行交际, 而 聋哑人交流主 要是使用手 语语言。 [0003]手语是一种借助手势来表达使用者意图的肢体语言, 其经过手部的形状、 位置、 运 动轨迹和方向来组合成为一个手语词。 虽然在日常生活中聋哑人可以使用手语来表达自己 的看法, 但 其中也有诸多不便。 比如, 大多 数普通人并不了解手语, 无法与聋哑人进 行沟通。 因此, 手语识别技术便成了聋哑人与世界沟 通的一种方法。 所谓的手语识别是通过计算机 技术对聋哑人使用的手语进行语义分析, 进而转化为普通人能看懂或听懂的文字或声音的 一种计算机技术。 手语识别技术的研究不仅能够对聋哑人的生活学习以及工作条件进 行改 善和提高, 为他们提供更优质的服务。 特别是在例如医院, 车站等一些公共场所, 手语识别 技术更加有着广泛的应用, 能够帮助聋哑人更好的融入社会, 享受生活。 同时, 手语识别技 术也可以应用于双语电视节目的播放、 计算机辅助哑语教学、 电影特效、 虚拟人的研究、 医 疗研究、 游戏娱乐、 动画的制作等诸多方面。 [0004]目前, 本次是主要基于英语手语字母进行手语识别的研究, 手语如用口语, 有其独 立的语系。 甚至在每个国家内部都有不同的手语用法, 而且各国的风俗习惯大不相同, 有时 贸然使用手语, 还会造成不必 要的麻烦或危险。 因此英语作为世界上使用最广泛的语言, 研 究英语字母手 语是有很大意 义的。 发明内容 [0005]本发明的目的在于有效的利用MediaPipe框架的优势, 提供一种不借助其他任何 复杂传感器的设备, 仅 凭普通摄像头对英文手语字母的26种手语手势和3种功能手势进行 实时识别。 该系统通过手部上各特征点到手腕点的空间距离组成一个多维数组, 通过训练 好的神经网络以及帧流结果稳定原则识别出手 语手势。 [0006]本发明的目的是这样实现的: 对每一种类手语手势进行多角度拍照, 将收集的图 像组成数据集, 利用MediaPipe框架识别手部位置并提取图像中的特征点, 通过神经网络的 训练实现对2 9种手语手势进行识别, 所述方法包括: [0007]步骤一、 利用MediaPipe框架获取手 语手势各个特 征点的三维坐标信息 。 [0008]步骤二、 根据手部的特征点的三维坐标信息计算各个关节点到手腕特征点的欧式 距离。 [0009]步骤三、 根据上述特征信息计算的欧氏距离组成的数列, 代入卷积神经网络模型 GoogLeNet, 使用三元组损失函数最终识别出待识别的手 语手势。说 明 书 1/3 页 3 CN 114821783 A 3

PDF文档 专利 一种基于深度学习的实时手语手势识别系统

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的实时手语手势识别系统 第 1 页 专利 一种基于深度学习的实时手语手势识别系统 第 2 页 专利 一种基于深度学习的实时手语手势识别系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。