行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211132338.3 (22)申请日 2022.09.17 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人 伍家松 吴婷婷 孙威 杨淳沨  孔佑勇 章品正 陈阳 舒华忠  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 杜静静 (51)Int.Cl. H04N 21/4402(2011.01) H04N 21/845(2011.01) H04N 21/439(2011.01) G10L 13/02(2013.01)G10L 21/0208(2013.01) G06V 20/40(2022.01) G06V 40/16(2022.01) G06F 16/483(2019.01) (54)发明名称 一种粤语新闻视频中自动裁剪含主播的视 听数据集的方法 (57)摘要 本发明公开了一种粤语新闻视频中自动裁 剪含主播的视听数据集的方法, 该方法把粤语新 闻视频裁剪为视频、 语音两个模态的数据集合, 其中每一段数据都只包含主持人进行新闻播报 的场景。 该方法基于HSV图像信息检测算法进行 整个新闻场景的分割, 基于FaceRecognition人 脸检测库和人脸特征提取工具进行包含目标主 播人脸的视频识别, 基于语音活动检测算法对音 频进行切分, 再根据切分停顿点对视频进行切 分, 实现自动完成粤语新闻中裁剪含主播的视听 数据集的制作。 通过设计的合理的流程和使用高 效的算法, 提高了构建粤语高质量视听数据集的 效率, 并能够方便地推广到其他语 言的视听数据 集制作中, 最终能应用于如粤语场景下语音去 噪、 音视频驱动的人脸 生成模型的训练中。 权利要求书2页 说明书5页 附图2页 CN 115460462 A 2022.12.09 CN 115460462 A 1.一种粤语新闻视频中自动裁剪含主播的视听数据集的方法, 其特征在于, 具体步骤 如下: 步骤1, 视频场景分割, 1.1, 收集电视台公开的粤语新闻播报视频, 视频中新闻主播需要 使用粤语播报新闻; 1.2, 使用一种基于HSV图像信息的检测算法处理1.1中的视频, 根据场景信息的变化得 到切割后的不同场景的视频; 步骤2, 目标 人脸分类, 2.1, 使用人脸检测工具Face  Recognition检测得到的场景视频中 的人脸, 对于不包含 人脸或者包 含一个以上 人脸的视频将会直接 丢弃; 2.2, 对于只包含一个人脸的场景视频, 使用Face  Recognition计算该人脸和目标主播 人脸的128维度人脸特 征向量; 2.3, 计算2.2中两个特征向量的余弦相似度, 若大于设定的阈值, 则认为该场景视频为 仅包含目标主播 播报的视频片段, 将其加入该目标主播文件夹中, 否则丢弃 该视频; 步骤3, 语音后处 理, 3.1, 对于目标主播文件夹中的视频, 使用F Fmpeg工具提取视频对应的音频; 3.2, 利用语音活动检测(Voice  Activity Detection,VAD)方法, 对语音中出现的停顿 进行检测并分割, 同时会得到分割的停顿点信息, 该步骤形成音频模态的数据; 3.3, 利用分割的停顿点信息去切分对应的视频, 得到与音频片段对应的视频片段, 该 步骤形成视频模态的数据。 2.如权利要求1中所述的一种粤语新闻视频中自动裁剪含主播的视听数据集的方法, 其特征在于, 所述步骤1中所选择的一种基于HSV图像信息的检测算法能够比较相 邻两帧图 像之间HSV信息的变化量, 如果该变化量超过所设定的阈值, 则可以认为视频在此处发生场 景变化; 视频中的一帧图像是三通道的RGB数据, 首先将其转换为三通道的HSV数据, 转换方式 如公式(1) ‑(3)所示: V=max(R,G,B)       (1) 其中, R、 G、 B分别为每个像素的红绿蓝三个通道的值, 若计算后的H值小于0, 则H=H+ 360, 为了方便后续视频帧特征的计算, 需要对得到的HSV进行适当放缩, 具体为将饱和度S 和亮度V扩大255倍, 色调缩小为原始的一半, 最 终得到HSV格式的数据也是一种包含三个通 道的数据, 得到两张相邻视频帧的HSV格式的数据后, 再去计算相邻两张图片的每个像素每个通 道的HSV数据的平均差值, 如果这个差值大于设置的阈值, 则说明场景变化较大, 即在此处 发生了场景的切换, 具体 计算差值的方式如公式(4)所示,权 利 要 求 书 1/2 页 2 CN 115460462 A 2其中Flast和Fcurrent表示上一帧与当前帧的HSV格式像素值, m,n表示视频帧的高度和 宽 度大小, i表示当前计算的是第i个通道的数据, score表示两帧之间的差异评分, 评分越高 代表它们之间的差异度越大, 越有可能作为场景的切换点, 经过实验测试, 将阈值设置在27时场景分割结果较好, 最终一期30分钟左右的新闻播 报视频, 平均会被分割为3 00个左右的小片段视频。 3.如权利要求1中所述的一种粤语新闻视频中自动裁剪含主播的视听数据集的方法, 其特征在于, 步骤2中在 进行视频中人物和目标人物的128维度人脸特征向量的相似度计算 时, 经过实验测试, 余弦相似度的阈值设置为0.9 2后能够取 得较好的人脸识别效果。 4.如权利要求1中所述的一种粤语新闻视频中自动裁剪含主播的视听数据集的方法, 其特征在于, 步骤3中最终得到的每条语音的长度保持在5s~10s, 能够保证数据时长的均 匀分布, 以及后期有效用于模型的训练中。 5.如权利要求1中所述的一种粤语新闻视频中自动裁剪含主播的视听数据集的方法, 其特征在于, 最终得到一 一对应的语音.wav格式的音频文件以及.mp4的视频文件。权 利 要 求 书 2/2 页 3 CN 115460462 A 3

.PDF文档 专利 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法 第 1 页 专利 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法 第 2 页 专利 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:18:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。