行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211359138.1 (22)申请日 2022.11.02 (71)申请人 中汽数据有限公司 地址 100176 北京市大兴区北京经济技 术 开发区博兴六路三 号院4幢3层 (72)发明人 王增喜 于波 王赟芝 方琳 潘霞 张苏林 宗岩 焦莉莉 韩瑞龙 秦川琪 张莹 (51)Int.Cl. G10L 15/08(2006.01) G06V 40/20(2022.01) G06V 10/80(2022.01) (54)发明名称 基于车载多模交互的语音识别方法及 装置、 介质和设备 (57)摘要 本发明涉及数据处理领域, 公开了一种基于 车载多模交互的语音识别方法及装置、 介质、 设 备, 包括: 获取车内语音数据, 从车内语音数据中 提取出语音特征向量; 提取出面部特征向量、 唇 部特征向量、 手势特征向量; 获取车辆状态数据, 从车辆状态数据中提取出车辆状态特征向量; 确 定面部特征向量、 唇部特征向量、 手势特征向量 和车辆状态特征向量各自对应的调和系数; 将面 部特征向量、 唇部特征向量、 手势特征向量和车 辆状态特征向量进行多模融合, 得到第一融合特 征向量; 将第一融合特征向量和语音特征向量进 行融合处理, 得到第二融合特征向量; 将第二融 合特征向量输入至语音识别模型中, 得到语音识 别结果。 本发 明实施例可以提高车载语音识别准 确率。 权利要求书4页 说明书12页 附图5页 CN 115410561 A 2022.11.29 CN 115410561 A 1.一种基于车 载多模交 互的语音识别方法, 其特 征在于, 包括: 获取车内语音数据, 并从所述车内语音数据中提取出语音特征向量; 获取车内人员的 面部数据、 唇部数据和手势数据, 从所述面部数据中提取出面部特征向量, 从所述唇部数据 中提取出唇部特征向量, 从所述手势数据中提取出手势特征向量; 获取车辆状态数据, 并从 所述车辆状态数据中提取 出车辆状态特 征向量; 确定所述面部特征向量、 所述唇部特征向量、 所述手势特征向量和所述车辆状态特征 向量各自对应的调和系数; 根据各个调和系数, 将所述面部特征向量、 所述唇部特征向量、 所述手势特征向量和所 述车辆状态特 征向量进行多模融合, 得到第一融合特 征向量; 将所述第一融合特征向量和所述语音特征向量进行融合处理, 得到第二融合特征向 量; 将所述第二融合特征向量输入至预先训练 的语音识别模型中, 得到对应的语音识别结 果。 2.根据权利要求1所述的方法, 其特征在于, 采用预设方程组计算各个调和系数, 所述 预设方程组包括如下 方程式: 式中, 为所述唇部特征向量中的第i个元素, 为所述面部特征向量中的第i个元 素, 为所述手势特征向量中的第i个元素, 为所述车辆状态特征向量中的第i个元素; a 为所述唇部特征向量中的元素个数, b为所述面部特征向量中的元素个数, c为所述手势特 征向量中的元素个数, d为所述车辆状态特征向量中的元素个数; 为所述唇部特征向量权 利 要 求 书 1/4 页 2 CN 115410561 A 2的调和系数, 为所述面部特征向量的调和系数, 为所述手势特征向量的调和系数, 为所述车辆状态特 征向量的调和系数。 3.根据权利要求1所述的方法, 其特征在于, 所述将所述面部特征向量、 所述唇部特征 向量、 所述手势特征向量和所述车辆状态特征向量进 行多模融合, 得到第一融合特征向量, 包括: 将所述面部特征向量、 所述唇部特征向量、 所述手势特征向量和所述车辆状态特征向 量分别与各自对应的调和系 数相乘, 并将相乘后得到的各个向量拼接为一个向量, 得到所 述第一融合特 征向量。 4.根据权利要求1所述的方法, 其特 征在于, 还 包括: 在车辆每次执行语音指令后, 获取车辆的状态变化数据, 并根据所述状态变化数据确 定本次语音识别结果是否正确; 每隔预设时间段后, 计算该预设时间段内语音识别对应的句识别成功率、 唤醒率、 交互 识别率、 唤醒平均响应时间和功能识别率; 根据所述句识别成功率、 所述唤醒率、 所述交互识别率、 所述唤醒平均响应时间和所述 功能识别率, 计算对应的识别性能指标。 5.根据权利要求 4所述的方法, 其特 征在于, 采用第一计算式计算所述句识别成功率, 所述第一计算式为: a=对连续语音的识别成 功次数/识别总次数, a为所述句识别成功率; 和/或, 所述唤醒率包括成功唤醒率和误唤醒率, 采用第二计算式计算所述成功唤醒率, 所述 第二计算式为: b1=成功唤醒次数/识别总次数, b1为所述成功唤醒率; 采用第三计算式计算 所述误唤醒率, 所述第三计算式为: b2=误唤醒次数/识别总次数, b2为所述误唤醒率; 和/ 或, 所述交互识别率包括交互成功率和误操作率, 采用第 四计算式计算所述交互成功率, 所述第四计算式为: c1=成功交互 次数/识别总次数, c1为所述交互成功 率; 采用第五计算式 计算所述误操作率, 所述第五计算式为: c2=交互失败次数/识别总次数, c2为所述误操作 率; 采用第六计算式计算所述唤醒平均响应时间, 所述第六计算式为: 式中, g为所述唤醒平均响应时间, 为第i次成功唤醒的响应时间, X为成功唤醒的总次 数; 和/或, 采用第七计算式计算每一功能对应的所述功能识别率, 所述第七计算式为: =对第i 个功能的成功 识别次数/识别总次数, 为第i个功能对应的功能识别率; 和/或, 采用第八计算式计算所述识别性能指标, 所述第八计算式包括: 权 利 要 求 书 2/4 页 3 CN 115410561 A 3
专利 基于车载多模交互的语音识别方法及装置、介质和设备
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 16:58:02
上传分享
举报
下载
原文档
(935.7 KB)
分享
友情链接
GB-T 34502-2017 封装键合用镀金银及银合金丝.pdf
GB-T 41514-2022 钢结构货架使用安全与评估规范.pdf
GB-Z 41599-2022 车辆总质量监测.pdf
山东省规章和行政规范性文件备案规定.pdf
T-NAHIEM 93—2023 麻醉科建设与设备配置.pdf
GB-T 10357.4-2023 家具力学性能试验 第4部分:柜类稳定性.pdf
GM-T 0010-2012 SM2密码算法加密签名消息语法规范.pdf
DB42-T 1730-2021 破损山体植被修复技术规范 湖北省.pdf
T-NIFA 28—2023 网上银行服务 应用安全规范.pdf
GB-T 18725-2008 制造业信息化 技术术语.pdf
T-CAAMM 28—2018 农业机械用轻型联组V带.pdf
T-BAX 0001.1—2021 安防监控中心值机工作与服务要求 :第1部分 值机工作要求.pdf
GB-T 38541-2020 信息安全技术 电子文件密码应用指南.pdf
GB-T 893-2017 孔用弹性挡圈.pdf
T-CESA 1041—2019 信息技术 人工智能 服务能力成熟度评价参考模型.pdf
DB14-T 1980-2020 检测设备计量溯源管理规范 山西省.pdf
DB5101-T 117—2021 医药化工企业安全管理规范 成都市.pdf
GB-T 27025-2019 检测和校准实验室能力的通用要求.pdf
GB-T 30287.3-2013 卫星定位船舶信息服务系统 第3部分:信息安全规范.pdf
法律法规 青岛市民用建筑节能条例2022-01-21.pdf
1
/
3
22
评价文档
赞助2元 点击下载(935.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。