行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211359138.1 (22)申请日 2022.11.02 (71)申请人 中汽数据有限公司 地址 100176 北京市大兴区北京经济技 术 开发区博兴六路三 号院4幢3层 (72)发明人 王增喜 于波 王赟芝 方琳  潘霞 张苏林 宗岩 焦莉莉  韩瑞龙 秦川琪 张莹  (51)Int.Cl. G10L 15/08(2006.01) G06V 40/20(2022.01) G06V 10/80(2022.01) (54)发明名称 基于车载多模交互的语音识别方法及 装置、 介质和设备 (57)摘要 本发明涉及数据处理领域, 公开了一种基于 车载多模交互的语音识别方法及装置、 介质、 设 备, 包括: 获取车内语音数据, 从车内语音数据中 提取出语音特征向量; 提取出面部特征向量、 唇 部特征向量、 手势特征向量; 获取车辆状态数据, 从车辆状态数据中提取出车辆状态特征向量; 确 定面部特征向量、 唇部特征向量、 手势特征向量 和车辆状态特征向量各自对应的调和系数; 将面 部特征向量、 唇部特征向量、 手势特征向量和车 辆状态特征向量进行多模融合, 得到第一融合特 征向量; 将第一融合特征向量和语音特征向量进 行融合处理, 得到第二融合特征向量; 将第二融 合特征向量输入至语音识别模型中, 得到语音识 别结果。 本发 明实施例可以提高车载语音识别准 确率。 权利要求书4页 说明书12页 附图5页 CN 115410561 A 2022.11.29 CN 115410561 A 1.一种基于车 载多模交 互的语音识别方法, 其特 征在于, 包括: 获取车内语音数据, 并从所述车内语音数据中提取出语音特征向量; 获取车内人员的 面部数据、 唇部数据和手势数据, 从所述面部数据中提取出面部特征向量, 从所述唇部数据 中提取出唇部特征向量, 从所述手势数据中提取出手势特征向量; 获取车辆状态数据, 并从 所述车辆状态数据中提取 出车辆状态特 征向量; 确定所述面部特征向量、 所述唇部特征向量、 所述手势特征向量和所述车辆状态特征 向量各自对应的调和系数; 根据各个调和系数, 将所述面部特征向量、 所述唇部特征向量、 所述手势特征向量和所 述车辆状态特 征向量进行多模融合, 得到第一融合特 征向量; 将所述第一融合特征向量和所述语音特征向量进行融合处理, 得到第二融合特征向 量; 将所述第二融合特征向量输入至预先训练 的语音识别模型中, 得到对应的语音识别结 果。 2.根据权利要求1所述的方法, 其特征在于, 采用预设方程组计算各个调和系数, 所述 预设方程组包括如下 方程式: 式中, 为所述唇部特征向量中的第i个元素, 为所述面部特征向量中的第i个元 素, 为所述手势特征向量中的第i个元素, 为所述车辆状态特征向量中的第i个元素; a 为所述唇部特征向量中的元素个数, b为所述面部特征向量中的元素个数, c为所述手势特 征向量中的元素个数, d为所述车辆状态特征向量中的元素个数; 为所述唇部特征向量权 利 要 求 书 1/4 页 2 CN 115410561 A 2的调和系数, 为所述面部特征向量的调和系数, 为所述手势特征向量的调和系数, 为所述车辆状态特 征向量的调和系数。 3.根据权利要求1所述的方法, 其特征在于, 所述将所述面部特征向量、 所述唇部特征 向量、 所述手势特征向量和所述车辆状态特征向量进 行多模融合, 得到第一融合特征向量, 包括: 将所述面部特征向量、 所述唇部特征向量、 所述手势特征向量和所述车辆状态特征向 量分别与各自对应的调和系 数相乘, 并将相乘后得到的各个向量拼接为一个向量, 得到所 述第一融合特 征向量。 4.根据权利要求1所述的方法, 其特 征在于, 还 包括: 在车辆每次执行语音指令后, 获取车辆的状态变化数据, 并根据所述状态变化数据确 定本次语音识别结果是否正确; 每隔预设时间段后, 计算该预设时间段内语音识别对应的句识别成功率、 唤醒率、 交互 识别率、 唤醒平均响应时间和功能识别率; 根据所述句识别成功率、 所述唤醒率、 所述交互识别率、 所述唤醒平均响应时间和所述 功能识别率, 计算对应的识别性能指标。 5.根据权利要求 4所述的方法, 其特 征在于, 采用第一计算式计算所述句识别成功率, 所述第一计算式为: a=对连续语音的识别成 功次数/识别总次数, a为所述句识别成功率; 和/或, 所述唤醒率包括成功唤醒率和误唤醒率, 采用第二计算式计算所述成功唤醒率, 所述 第二计算式为: b1=成功唤醒次数/识别总次数, b1为所述成功唤醒率; 采用第三计算式计算 所述误唤醒率, 所述第三计算式为: b2=误唤醒次数/识别总次数, b2为所述误唤醒率; 和/ 或, 所述交互识别率包括交互成功率和误操作率, 采用第 四计算式计算所述交互成功率, 所述第四计算式为: c1=成功交互 次数/识别总次数, c1为所述交互成功 率; 采用第五计算式 计算所述误操作率, 所述第五计算式为: c2=交互失败次数/识别总次数, c2为所述误操作 率; 采用第六计算式计算所述唤醒平均响应时间, 所述第六计算式为: 式中, g为所述唤醒平均响应时间, 为第i次成功唤醒的响应时间, X为成功唤醒的总次 数; 和/或, 采用第七计算式计算每一功能对应的所述功能识别率, 所述第七计算式为: =对第i 个功能的成功 识别次数/识别总次数, 为第i个功能对应的功能识别率; 和/或, 采用第八计算式计算所述识别性能指标, 所述第八计算式包括: 权 利 要 求 书 2/4 页 3 CN 115410561 A 3

.PDF文档 专利 基于车载多模交互的语音识别方法及装置、介质和设备

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于车载多模交互的语音识别方法及装置、介质和设备 第 1 页 专利 基于车载多模交互的语音识别方法及装置、介质和设备 第 2 页 专利 基于车载多模交互的语音识别方法及装置、介质和设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:58:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。