专利一种粤语新闻视频中自动裁剪含主播的视听数据集的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211132338.3 (22)申请日 2022.09.17 (71)申请人东南大学地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人伍家松　吴婷婷　孙威　杨淳沨　孔佑勇　章品正　陈阳　舒华忠　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师杜静静 (51)Int.Cl. H04N 21/4402(2011.01) H04N 21/845(2011.01) H04N 21/439(2011.01) G10L 13/02(2013.01)G10L 21/0208(2013.01) G06V 20/40(2022.01) G06V 40/16(2022.01) G06F 16/483(2019.01) (54)发明名称一种粤语新闻视频中自动裁剪含主播的视听数据集的方法 (57)摘要本发明公开了一种粤语新闻视频中自动裁剪含主播的视听数据集的方法，该方法把粤语新闻视频裁剪为视频、语音两个模态的数据集合，其中每一段数据都只包含主持人进行新闻播报的场景。该方法基于HSV图像信息检测算法进行整个新闻场景的分割，基于FaceRecognition人脸检测库和人脸特征提取工具进行包含目标主播人脸的视频识别，基于语音活动检测算法对音频进行切分，再根据切分停顿点对视频进行切分，实现自动完成粤语新闻中裁剪含主播的视听数据集的制作。通过设计的合理的流程和使用高效的算法，提高了构建粤语高质量视听数据集的效率，并能够方便地推广到其他语言的视听数据集制作中，最终能应用于如粤语场景下语音去噪、音视频驱动的人脸生成模型的训练中。权利要求书2页说明书5页附图2页 CN 115460462 A 2022.12.09 CN 115460462 A 1.一种粤语新闻视频中自动裁剪含主播的视听数据集的方法，其特征在于，具体步骤如下：步骤1，视频场景分割， 1.1，收集电视台公开的粤语新闻播报视频，视频中新闻主播需要使用粤语播报新闻； 1.2，使用一种基于HSV图像信息的检测算法处理1.1中的视频，根据场景信息的变化得到切割后的不同场景的视频；步骤2，目标人脸分类， 2.1，使用人脸检测工具Face Recognition检测得到的场景视频中的人脸，对于不包含人脸或者包含一个以上人脸的视频将会直接丢弃； 2.2，对于只包含一个人脸的场景视频，使用Face Recognition计算该人脸和目标主播人脸的128维度人脸特征向量； 2.3，计算2.2中两个特征向量的余弦相似度，若大于设定的阈值，则认为该场景视频为仅包含目标主播播报的视频片段，将其加入该目标主播文件夹中，否则丢弃该视频；步骤3，语音后处理， 3.1，对于目标主播文件夹中的视频，使用F Fmpeg工具提取视频对应的音频； 3.2，利用语音活动检测(Voice Activity Detection,VAD)方法，对语音中出现的停顿进行检测并分割，同时会得到分割的停顿点信息，该步骤形成音频模态的数据； 3.3，利用分割的停顿点信息去切分对应的视频，得到与音频片段对应的视频片段，该步骤形成视频模态的数据。 2.如权利要求1中所述的一种粤语新闻视频中自动裁剪含主播的视听数据集的方法，其特征在于，所述步骤1中所选择的一种基于HSV图像信息的检测算法能够比较相邻两帧图像之间HSV信息的变化量，如果该变化量超过所设定的阈值，则可以认为视频在此处发生场景变化；视频中的一帧图像是三通道的RGB数据，首先将其转换为三通道的HSV数据，转换方式如公式(1) ‑(3)所示： V＝max(R,G,B) (1) 其中， R、 G、 B分别为每个像素的红绿蓝三个通道的值，若计算后的H值小于0，则H＝H+ 360，为了方便后续视频帧特征的计算，需要对得到的HSV进行适当放缩，具体为将饱和度S 和亮度V扩大255倍，色调缩小为原始的一半，最终得到HSV格式的数据也是一种包含三个通道的数据，得到两张相邻视频帧的HSV格式的数据后，再去计算相邻两张图片的每个像素每个通道的HSV数据的平均差值，如果这个差值大于设置的阈值，则说明场景变化较大，即在此处发生了场景的切换，具体计算差值的方式如公式(4)所示，权　利　要　求　书 1/2 页 2 CN 115460462 A 2其中Flast和Fcurrent表示上一帧与当前帧的HSV格式像素值， m,n表示视频帧的高度和宽度大小， i表示当前计算的是第i个通道的数据， score表示两帧之间的差异评分，评分越高代表它们之间的差异度越大，越有可能作为场景的切换点，经过实验测试，将阈值设置在27时场景分割结果较好，最终一期30分钟左右的新闻播报视频，平均会被分割为3 00个左右的小片段视频。 3.如权利要求1中所述的一种粤语新闻视频中自动裁剪含主播的视听数据集的方法，其特征在于，步骤2中在进行视频中人物和目标人物的128维度人脸特征向量的相似度计算时，经过实验测试，余弦相似度的阈值设置为0.9 2后能够取得较好的人脸识别效果。 4.如权利要求1中所述的一种粤语新闻视频中自动裁剪含主播的视听数据集的方法，其特征在于，步骤3中最终得到的每条语音的长度保持在5s～10s，能够保证数据时长的均匀分布，以及后期有效用于模型的训练中。 5.如权利要求1中所述的一种粤语新闻视频中自动裁剪含主播的视听数据集的方法，其特征在于，最终得到一一对应的语音.wav格式的音频文件以及.mp4的视频文件。权　利　要　求　书 2/2 页 3 CN 115460462 A 3

专利 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法

专利一种粤语新闻视频中自动裁剪含主播的视听数据集的方法