行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210971306.6 (22)申请日 2022.08.15 (71)申请人 北京师范大学 地址 100875 北京市海淀区新 街口外大街 19号 (72)发明人 张林焘 吴昊 李贺  (74)专利代理 机构 成都鱼爪智云知识产权代理 有限公司 513 08 专利代理师 甯树娇 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/16(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01)G06N 20/10(2019.01) G10L 17/22(2013.01) G10L 25/51(2013.01) G10L 25/87(2013.01) (54)发明名称 一种基于多模态音视频技术的学生课堂表 现评估方法 (57)摘要 本发明提出了一种基于多模态音视频技术 的学生课堂表现评估 方法, 涉及课堂教育的技术 领域。 通过声纹识别技术对学生的发言频率进行 统计, 对学生发言活跃度进行评价, 通过视频关 键帧提取技术对视频中的关键帧进行提取, 分别 挑选出能够反应专注度学生面部图像作为正样 本或负样 本; 利用机器学习模型对正负训练样本 进行训练, 得到专注度检测模型; 利用检测模型 对关键帧图像进行检测, 得到学生课堂小动作频 率, 根据课堂评价数据表内记录, 对学生表现进 行分类。 其能够使得每个学生可以根据其监测中 反应的学习状态, 进行针对教育, 提高了学习的 效率。 权利要求书2页 说明书8页 附图4页 CN 115049970 A 2022.09.13 CN 115049970 A 1.一种基于多模态音视频技 术的学生课 堂表现评估方法, 其特 征在于, 包括: 预采集学生的声纹信息和面部信息; 利用录音设备对课堂的语音进行收集, 通过声纹识别技术对学生的发言频率进行统 计, 以发言频率 为参照, 对学生发言活跃度进行评价, 生成课 堂评价数据表; 利用摄像设备对课堂的视频进行收集, 通过视频关键帧提取技术对视频中的关键帧进 行提取, 得到关键帧图像; 挑选出预设数量的高专注度 学生面部图像作为正样本, 挑选出预设数量的低专注度 学 生面部图像作为负 样本; 利用机器学习模型对正负训练样本进行训练, 得到学生 面部专注度检测模型; 利用学生面部专注度检测模型对所述关键帧图像进行检测, 对学生的学习专注度进行 评估, 将评估结果汇总至所述课 堂评价数据表中; 利用肢体动作识别技术对视频中的学生肢体动作进行识别, 得到学生课堂小动作频 率, 将所述课 堂小动作频率汇总至所述课 堂评价数据表中; 根据所述课堂评价数据表内记录, 将发言频率达到第一预设评率、 学习专注度达到预 设阈值、 课堂小动作频率低于预设频率均达到的学生记为表现优良学生, 仅有一项表现未 达到的学生记录为表现中等学生, 三项中有超过两项未达标记为课 堂表现较差学生。 2.如权利要求1所述的一种基于多模态音视频技术的学生课堂表现评估方法, 其特征 在于, 利用肢体动作识别技术对视频中的学生肢体动作进行识别, 得到学生课堂小动作频 率, 将所述课 堂小动作频率汇总至所述课 堂评价数据表中的步骤 包括: 挑选出预设数量的高专注度 学生的肢体动作图像作为正样本, 挑选出预设数量的小动 作学生的肢体动作图像作为负 样本; 利用机器学习模型对正负训练样本进行训练, 得到学生肢体动作检测模型; 利用学生肢体动作检测模型对所述关键帧图像进行检测, 对学生的学习专注度进行评 估; 对交头接耳、 传递物品等行为进行识别, 利用识别结果对学生课堂小动作频率进行评 价, 将得到的评价数据汇总至所述课 堂评价数据表中。 3.如权利要求1所述的一种基于多模态音视频技术的学生课堂表现评估方法, 其特征 在于, 利用录音设备对课堂的语音进行收集, 通过声纹识别技术对学生的发言频率进行统 计的步骤 包括: 对录音设备收集的语音信息进行语音 端点检测; 对所述语音信息进行语音质量检测; 并将所述语音信息进行规范化转换, 得到有效音 频; 对所述有 效音频进行声纹特征提取, 利用声纹模型将所述声纹特征与 预设的声纹库对 比, 得出声纹相同的学生; 并对所述学生上课期间发言频率进行统计。 4.如权利要求3所述的一种基于多模态音视频技术的学生课堂表现评估方法, 其特征 在于, 对所述语音信息进 行语音质量检测; 并将所述语音信息进 行规范化转换, 得到有效音 频的步骤 包括: 对所述语音信息进行信噪比检测、 截幅大小检测 和音量大小检测; 滤除所述语音信息的背景噪声; 同时对语音信息的音量转换至预设音量, 得到有效音 频。权 利 要 求 书 1/2 页 2 CN 115049970 A 25.如权利要求1所述的一种基于多模态音视频技术的学生课堂表现评估方法, 其特征 在于, 通过视频关键帧提取技 术对视频中的关键帧进行提取, 得到关键帧图像的步骤 包括: 输入视频帧数据的集 合; 基于所述视频帧的颜色直方图的属性 来提取集合中的特 征值; 将视频帧的第 一帧对应的特征向量归入到第 一个类中, 并且将第 一帧对应的颜色直方 图的特征值作为第一个 类的初始质心; 计算视频帧到质心的距离, 如果当前比较的视频帧的距离大于给定的初始阈值机器学 习模型, 那么就把所述视频帧归入到新的类中; 反之, 把当前视频帧归入到距离它最近的类 中, 并且更新该类的质心; 将距离聚类中心最近的视频帧作为关键帧。 6.如权利要求1所述的一种基于多模态音视频技术的学生课堂表现评估方法, 其特征 在于, 所述机器学习模型为SVM支持向量机 。 7.如权利要求1所述的一种基于多模态音视频技术的学生课堂表现评估方法, 其特征 在于, 三项中有超过两项未达标记为课 堂表现较差学生后的步骤 包括: 汇总所有学生的所述课 堂评价数据表至总表, 将所述总表反馈给 预设人员。 8.机器学习模型一种基于多模态音视频技术的学生课堂表现评估方法, 其特征在于, 包括: 预采集模块, 用于预采集学生的声纹信息和面部信息; 声纹识别模块, 用于利用录音设备对课堂的语音进行收集, 通过声纹识别技术对学生 的发言频率进 行统计, 以发言频率为参照, 对学生发言活跃度进 行评价, 生 成课堂评价数据 表; 视频关键帧提取模块, 用于利用摄像设备对课堂的视频进行收集, 通过视频关键帧提 取技术对视频中的关键帧进行提取, 得到关键帧图像; 专注度识别模块, 用于挑选出预设数量的高专注度学生面部 图像作为正样本, 挑选出 预设数量的低专注度学生面部图像作为负样本; 利用机器学习模型对正负训练样本进 行训 练, 得到学生面部专注度检测模型; 利用学生面部专注度检测模型对所述关键帧图像进行 检测, 对学生的学习专 注度进行评估, 将评估结果汇总至所述课 堂评价数据表中; 肢体动作识别模块, 用于利用肢体动作识别技术对视频中的学生肢体动作进行识别, 得到学生课 堂小动作频率, 将所述课 堂小动作频率汇总至所述课 堂评价数据表中; 结果模块, 用于根据 所述课堂评价数据表内记录, 将 发言频率达到第 一预设评率、 学习 专注度达到预设阈值、 课堂小动作频率低于预设频率均达到的学生记为表现优良学生, 仅 有一项表现未达到的学生记录为表现中等学生, 三项中有超过两项未达标记为课堂表现较 差学生。 9.一种电子设备, 其特征在于, 包括至少一个处理器、 至少一个存储器和数据总线; 其 中: 所述处理器与所述存储器通过所述数据总线完成相互间的通信; 所述存储器存储有可 被所述处理器执行 的程序指令, 所述处理器调用所述程序指令以执行如权利要求1 ‑7任一 所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被 处理器执行时实现如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115049970 A 3

.PDF文档 专利 一种基于多模态音视频技术的学生课堂表现评估方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多模态音视频技术的学生课堂表现评估方法 第 1 页 专利 一种基于多模态音视频技术的学生课堂表现评估方法 第 2 页 专利 一种基于多模态音视频技术的学生课堂表现评估方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:54:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。