行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210686072.0 (22)申请日 2022.06.16 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 黄宇婷 王崇文  (74)专利代理 机构 北京和联顺知识产权代理有 限公司 1 1621 专利代理师 肖智斌 (51)Int.Cl. G06V 40/16(2022.01) G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/26(2022.01)G06V 10/762(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/774(2022.01) G10L 17/18(2013.01) G09B 5/06(2006.01) (54)发明名称 一种基于音视频分析课 堂交互行为的方法 (57)摘要 本发明公开了一种基于音视频分析课堂交 互行为的方法, 包括如下步骤: 通过教室中录音 设备收录音频数据, 利用说话人分割聚类算法处 理得到课堂说话人变化序列, 分析序列变化得到 言语类课堂交互行为; 通过教室中摄像头采集讲 台上下视频数据, 利用自搭建人脸检测网络FDN 和人体站立姿态识别网络得到教师和学生位置 信息, 以音频说话人序列作为辅助分析得到非言 语类课堂交互序行为。 本发明解决了现有课堂交 互行为分析方法无法充分利用课堂数据、 反馈滞 后等问题, 利用深度学习技术实现自动化课堂交 互行为分析, 能够及时且客观反馈教学情况、 有 效促进教学活动的开展。 权利要求书2页 说明书4页 附图3页 CN 114998968 A 2022.09.02 CN 114998968 A 1.一种基于音视频分析课 堂交互行为的方法, 其特 征在于, 包括如下步骤: S1、 通过录音设备采集课程中音频数据, 通过摄像头采集到讲台上和讲台下两个视角 的视频数据。 S2、 将步骤S1中的音频数据输入到说话人分割聚类算法中, 得到课堂场景中说话人序 列; 将步骤S1中的讲台上视频数据输入到人脸检测算法中, 得到讲台上人脸个数; 将步骤S1 中的讲台下视频 数据输入到人体站立姿态检测算法中, 得到讲台下站立姿态检测结果。 S3、 将步骤S2中的说话人序列进行角 色区分, 说话时间最长的标记为教师, 其余为学 生, 根据角色变化分析得到言语类课堂交互行为; 将步骤S2得到的讲台上人脸个数和讲台 下人体站立姿态结果, 结合说话人角色序列得到教师与学生位置关系, 最终分析得到非言 语类课堂交互行为。 2.根据权利要求1所述的一种基于音视频分析课堂交互行为的方法, 其特征在于, 所述 说话人分割聚类算法包 含三个模块: 数据前处 理模块、 LA ‑TDNN模块、 说话人聚类模块。 3.根据权利要求2所述的一种基于音视频分析课堂交互行为的方法, 其特征在于, 所述 数据前处 理模块用于对语音数据进行 特征参数提取、 语音活动检测以及与语音时序分段。 4.根据权利要求2所述的一种基于音视频分析课堂交互行为的方法, 其特征在于, 所述 LA‑TDNN模块以TDNN为基础进行相应的改良。 在 帧级特征提取部分增加了LSTM层, 以弥补 TDNN的时间延迟层只关注局部特征的缺点, 在时域池化部 分将传统的基于统计池化替换成 了基于双重多头注意力机制的池化, 通过注意力机制为不同帧提供不同的权重, 能够更有 效的捕捉说话人 特征。 5.根据权利要求2所述的一种基于音视频分析课堂交互行为的方法, 其特征在于, 所述 说话人聚类模块学习LA ‑TDNN输出的x ‑vector, 建立PLDA模型, 采用适当的无监督聚类方 法, 利用PLDA模 型计算说话人特征之间的相似性, 判断两者是否属于统一说话人, 从而达到 聚类的效果。 6.根据权利要求1所述的一种基于音视频分析课堂交互行为的方法, 其特征在于, 所述 S2中人脸检测算法包 含三个模块: 特 征提取模块、 特 征融合模块、 回归与分类模块。 7.根据权利要求6所述的一种基于音视频分析课堂交互行为的方法, 其特征在于, 所述 特征提取模块根据残差网络思想构建特征提取网络, 负责从原始图像中提取有效特征, 同 时使得模型训练和收敛速度更 快。 8.根据权利要求6所述的一种基于音视频分析课堂交互行为的方法, 其特征在于, 所述 特征融合模块采用双向特征融合机制充分结合深层和浅层信息, 在传统FPN模块之后根据 PANet的思想增加了一个自底向上的融合过程, PANet使 得自底向上的路径增强, FPN层自顶 向下传达强语义特 征, 而PANet自底向上传达强定位特 征。 9.根据权利要求6所述的一种基于音视频分析课堂交互行为的方法, 其特征在于, 所述 回归与分类模块为了解决分类得分和回归准确率相关性比较低, 在框回归子网络中增加一 个IoU预测分支, 将IoU预测值和分类得分共同作为最终的检测 置信度, 最终得到得到所包 含的目标框位置和类别 信息。 10.根据权利要求1所述的一种基于音视频分析课堂交互行为的方法, 其特征在于, 所 述人体站 立姿态检测算法包含两个模块: 人体动作特征提取模块、 分类模块; 其中人体动作 特征提取模块, 利用OpenPose提取人体站 立姿态关键点, 并将所有关键点信息整合起来; 分权 利 要 求 书 1/2 页 2 CN 114998968 A 2类模块利用MLPClassifier构建二分类模型, 将人体站立姿态关键点信息送入分类网络进 行训练, 最终得到人体站立姿态检测模型。权 利 要 求 书 2/2 页 3 CN 114998968 A 3

.PDF文档 专利 一种基于音视频分析课堂交互行为的方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于音视频分析课堂交互行为的方法 第 1 页 专利 一种基于音视频分析课堂交互行为的方法 第 2 页 专利 一种基于音视频分析课堂交互行为的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:55:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。