专利 基于车载多模交互的语音识别方法及装置、介质和设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211359138.1 (22)申请日 2022.11.02 (71)申请人中汽数据有限公司地址 100176 北京市大兴区北京经济技术开发区博兴六路三号院4幢3层 (72)发明人王增喜　于波　王赟芝　方琳　潘霞　张苏林　宗岩　焦莉莉　韩瑞龙　秦川琪　张莹　 (51)Int.Cl. G10L 15/08(2006.01) G06V 40/20(2022.01) G06V 10/80(2022.01) (54)发明名称基于车载多模交互的语音识别方法及装置、介质和设备 (57)摘要本发明涉及数据处理领域，公开了一种基于车载多模交互的语音识别方法及装置、介质、设备，包括：获取车内语音数据，从车内语音数据中提取出语音特征向量；提取出面部特征向量、唇部特征向量、手势特征向量；获取车辆状态数据，从车辆状态数据中提取出车辆状态特征向量；确定面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量各自对应的调和系数；将面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量进行多模融合，得到第一融合特征向量；将第一融合特征向量和语音特征向量进行融合处理，得到第二融合特征向量；将第二融合特征向量输入至语音识别模型中，得到语音识别结果。本发明实施例可以提高车载语音识别准确率。权利要求书4页说明书12页附图5页 CN 115410561 A 2022.11.29 CN 115410561 A 1.一种基于车载多模交互的语音识别方法，其特征在于，包括：获取车内语音数据，并从所述车内语音数据中提取出语音特征向量；获取车内人员的面部数据、唇部数据和手势数据，从所述面部数据中提取出面部特征向量，从所述唇部数据中提取出唇部特征向量，从所述手势数据中提取出手势特征向量；获取车辆状态数据，并从所述车辆状态数据中提取出车辆状态特征向量；确定所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量各自对应的调和系数；根据各个调和系数，将所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量进行多模融合，得到第一融合特征向量；将所述第一融合特征向量和所述语音特征向量进行融合处理，得到第二融合特征向量；将所述第二融合特征向量输入至预先训练的语音识别模型中，得到对应的语音识别结果。 2.根据权利要求1所述的方法，其特征在于，采用预设方程组计算各个调和系数，所述预设方程组包括如下方程式：式中，为所述唇部特征向量中的第i个元素，为所述面部特征向量中的第i个元素，为所述手势特征向量中的第i个元素，为所述车辆状态特征向量中的第i个元素； a 为所述唇部特征向量中的元素个数， b为所述面部特征向量中的元素个数， c为所述手势特征向量中的元素个数， d为所述车辆状态特征向量中的元素个数；为所述唇部特征向量权　利　要　求　书 1/4 页 2 CN 115410561 A 2的调和系数，为所述面部特征向量的调和系数，为所述手势特征向量的调和系数，为所述车辆状态特征向量的调和系数。 3.根据权利要求1所述的方法，其特征在于，所述将所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量进行多模融合，得到第一融合特征向量，包括：将所述面部特征向量、所述唇部特征向量、所述手势特征向量和所述车辆状态特征向量分别与各自对应的调和系数相乘，并将相乘后得到的各个向量拼接为一个向量，得到所述第一融合特征向量。 4.根据权利要求1所述的方法，其特征在于，还包括：在车辆每次执行语音指令后，获取车辆的状态变化数据，并根据所述状态变化数据确定本次语音识别结果是否正确；每隔预设时间段后，计算该预设时间段内语音识别对应的句识别成功率、唤醒率、交互识别率、唤醒平均响应时间和功能识别率；根据所述句识别成功率、所述唤醒率、所述交互识别率、所述唤醒平均响应时间和所述功能识别率，计算对应的识别性能指标。 5.根据权利要求 4所述的方法，其特征在于，采用第一计算式计算所述句识别成功率，所述第一计算式为： a=对连续语音的识别成功次数/识别总次数， a为所述句识别成功率；和/或，所述唤醒率包括成功唤醒率和误唤醒率，采用第二计算式计算所述成功唤醒率，所述第二计算式为： b1=成功唤醒次数/识别总次数， b1为所述成功唤醒率；采用第三计算式计算所述误唤醒率，所述第三计算式为： b2=误唤醒次数/识别总次数， b2为所述误唤醒率；和/ 或，所述交互识别率包括交互成功率和误操作率，采用第四计算式计算所述交互成功率，所述第四计算式为： c1=成功交互次数/识别总次数， c1为所述交互成功率；采用第五计算式计算所述误操作率，所述第五计算式为： c2=交互失败次数/识别总次数， c2为所述误操作率；采用第六计算式计算所述唤醒平均响应时间，所述第六计算式为：式中， g为所述唤醒平均响应时间，为第i次成功唤醒的响应时间， X为成功唤醒的总次数；和/或，采用第七计算式计算每一功能对应的所述功能识别率，所述第七计算式为： =对第i 个功能的成功识别次数/识别总次数，为第i个功能对应的功能识别率；和/或，采用第八计算式计算所述识别性能指标，所述第八计算式包括：权　利　要　求　书 2/4 页 3 CN 115410561 A 3

专利 基于车载多模交互的语音识别方法及装置、介质和设备

专利基于车载多模交互的语音识别方法及装置、介质和设备