行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211191003.9 (22)申请日 2022.09.28 (71)申请人 歌尔科技有限公司 地址 266100 山东省青岛市崂山区松岭路 500号 (72)发明人 苑澄橙  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 王学强 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 唇语识别方法及相关 设备 (57)摘要 本申请公开了一种唇语识别方法, 包括: 获 取连续视频帧; 确定连续视频帧中各视频帧的唇 部区域, 获得区域图像; 利用预设神经网络模型 对各区域图像进行处理, 获得唇语识别结果; 其 中, 预设神经网络模型中的每一卷积层用于: 对 第一输入通道的输入信息进行卷积处理, 获得卷 积结果; 对第二输入通道的输入信息与卷积结果 进行混洗处理, 获得混洗结果; 输出混洗结果; 第 一输入通道的通道数量和第二输入通道的通道 数量的加和为卷积层的输入通道总数量。 应用本 申请所提供的技术方案, 可以有效简化计算复杂 度, 减少计算资源的占用, 同时提高唇语识别效 率。 本申请还公开了一种唇语识别装置、 电子设 备及计算机可读存储介质, 同样具有上述技术效 果。 权利要求书2页 说明书10页 附图2页 CN 115482572 A 2022.12.16 CN 115482572 A 1.一种唇语识别方法, 其特 征在于, 包括: 获取连续视频帧; 确定所述连续视频帧中各视频帧的唇部区域, 获得区域图像; 利用预设神经网络模型对各 所述区域图像进行处 理, 获得唇语识别结果; 其中, 所述预设神经网络模型中的每一卷积层用于: 对第一输入通道的输入信息进行 卷积处理, 获得卷积结果; 对第二输入通道的输入信息与所述卷积结果进行混洗处 理, 获得混洗结果; 输出所述混洗结果; 所述第 一输入通道的通道数量和所述第 二输入通道的通道数量的 加和为所述卷积层的输入通道总数量。 2.根据权利要求1所述的唇语识别方法, 其特征在于, 所述确定所述连续视频帧中各视 频帧的唇部区域, 获得区域图像, 包括: 对所述连续视频帧中的每一所述视频帧进行 人脸识别, 确定人脸区域; 利用haar分类器在所述人脸区域内识别确定所述唇部区域, 获得 所述区域图像。 3.根据权利要求1所述的唇语识别方法, 其特征在于, 所述确定所述连续视频帧中各视 频帧的唇部区域, 获得区域图像之前, 还 包括: 对每一所述视频帧进行 灰度处理, 获得灰度视频帧。 4.根据权利要求1所述的唇语识别方法, 其特 征在于, 所述获取 连续视频帧, 包括: 利用OpenCV获取 所述连续视频帧。 5.根据权利要求1所述的唇语识别方法, 其特 征在于, 还 包括: 获取连续视频帧样本; 根据所述连续视频帧样本生成样本数据集; 利用所述样本数据集进行模型训练, 获得 所述预设神经网络模型。 6.根据权利要求5所述的唇语识别方法, 其特征在于, 所述利用所述样本数据集进行模 型训练, 获得 所述预设神经网络模型之前, 还 包括: 对所述样本数据集中的每一视频帧样本进行格式转换, 获得满足预设格式的视频帧样 本; 其中, 所述格式转换包括压缩处理、 灰度处理、 维度调整处理、 向量化处理、 归一化处理 中的一种或多种。 7.根据权利要求5所述的唇语识别方法, 其特征在于, 所述利用预设神经网络模型对各 所述区域图像进行处 理, 获得唇语识别结果之后, 还 包括: 利用所述唇语识别结果对所述预设神经网络模型进行优化处理, 获得优化后的预设神 经网络模型。 8.一种唇语识别装置, 其特 征在于, 包括: 获取模块, 用于获取 连续视频帧; 确定模块, 用于确定所述连续视频帧中各视频帧的唇部区域, 获得区域图像; 处理模块, 用于利用预设神经网络模型对各所述区域图像进行处理, 获得唇语识别结 果; 其中, 所述预设神经网络模型中的每一卷积层包括: 卷积单元, 用于对第一输入通道的输入信息进行 卷积处理, 获得卷积结果; 混洗单元, 用于对第二输入通道的输入信息与所述卷积结果进行混洗处理, 获得混洗权 利 要 求 书 1/2 页 2 CN 115482572 A 2结果; 输出单元, 用于输出所述混洗结果; 所述第一输入通道的通道数量和所述第二输入通 道的通道数量的加 和为所述卷积层的输入通道总数量。 9.一种电子设备, 其特 征在于, 包括: 存储器, 用于存 储计算机程序; 处理器, 用于执行所述计算机程序时实现如权利要求1至7任一项所述的唇语识别方法 的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至7任一项 所述的唇语识别方法的 步骤。权 利 要 求 书 2/2 页 3 CN 115482572 A 3

.PDF文档 专利 唇语识别方法及相关设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 唇语识别方法及相关设备 第 1 页 专利 唇语识别方法及相关设备 第 2 页 专利 唇语识别方法及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:19:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。