行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210801636.0 (22)申请日 2022.07.08 (71)申请人 西安交通大 学医学院第二附属医院 地址 710004 陕西省西安市新城区西五路 157号 (72)发明人 徐颂华 刘安然 周林韵 李宗芳  徐宗本  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 姚咏华 (51)Int.Cl. H04N 21/234(2011.01) H04N 21/44(2011.01) H04N 21/488(2011.01) H04N 5/278(2006.01)G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于全局视频特征的密集视频字幕生 成方法 (57)摘要 本发明公开了一种基于全局视频特征的密 集视频字幕生成方法, 本发明通过自适应聚类的 方法在只输入整段视频的情况下编码其全局特 征, 进而以端到端的方式指导事件定位和字幕生 成, 略去了先前模型利用先验阈值进行事件提案 划分的步骤, 从而在保证字幕生成准确性的条件 下大大降低了计算复杂 度。 本发明在处理长序列 特征时能够自适应地将相近的特征查询聚类进 而降 低冗余 , 节省内 存。 同 时 , 作为 传统 Transformer中完整自注意力机制的快速近似, 该方法在编码准确性方面 也表现优异。 权利要求书3页 说明书10页 附图2页 CN 115190332 A 2022.10.14 CN 115190332 A 1.一种基于全局视频 特征的密集视频字幕生成方法, 其特 征在于, 包括以下步骤: 运用预训练的动作识别网络提取视频的初级编码特 征; 对初级编码特征进行处理, 确定视觉中心和权重后再进行若干层堆叠, 得到全局特征 编码; 将全局特征编码作为指导, 使用并行多头解码器来进行事件个数预测、 事件定位以及 字幕生成, 最终生成视频字幕。 2.根据权利要求1所述的一种基于全局视频特征的密集视频字幕生成方法, 其特征在 于, 提取视频的初级编码特 征通过C3D模型、 双流网络结构或时间敏感视频编码器。 3.根据权利要求1所述的一种基于全局视频特征的密集视频字幕生成方法, 其特征在 于, 得到全局特 征编码的具体方法如下: 使用局部敏感哈希方法对初级编码特征中的视频特征进行处理, 确定视频特征的视觉 中心; 查询每一组视频 特征, 得到具有最高关注度的前k个视频 特征键并确定 权重; 重复上述 步骤对所有编码的视频 特征赋予权重, 得到全局特 征编码。 4.根据权利要求3所述的一种基于全局视频特征的密集视频字幕生成方法, 其特征在 于, 使用局部敏感哈希方法对初级编码特 征中的视频 特征进行处 理的具体方法如下: 计算每个初级编码特 征中视频 特征查询的哈希值; 将欧几里 得局部敏感哈希作为哈希函数: 其中, Qj是Q的分量, r是超参数, a和b是随机变量, 满足 且 应用到H个LSH, 得到每 个视频分量的哈希值: 其中, B为常数; 设 是具有相同哈希值的视频特征查询的中心, Ii是类别索引, 表示视频特 征查询分量 Qi属于哪一组, 第j组视 觉中心Qc(j)表示成下式: 相应的集群注意力矩阵 按照如下 方式得到: 5.根据权利要求3所述的一种基于全局视频特征的密集视频字幕生成方法, 其特征在 于, 得到具有最高关注度的前k个视频 特征键并确定 权重的具体方法如下:权 利 要 求 书 1/3 页 2 CN 115190332 A 2设P∈{0, 1}U×C是一组指示向量, 其中Pji=1当且仅当第i个视频特征键是第j 组的关注 度位于前k个的键之一, 否则为0; 通过这种方式将在第j组中对关注度排在前k个的键和其它键分开并为它们计算如下 的注意力系数: 按照上述方式改进之后的注意力矩阵表示成: 其中i表示的是第j个视频 特征组中包 含的第i个视频 特征查询; 新的视频 特征值 可以被分成如下两个部分: 其中, 其中 由 广播得到 。 6.根据权利要求3所述的一种基于全局视频特征的密集视频字幕生成方法, 其特征在 于, 得到全局特 征编码的具体方法如下: 经过J层堆叠的包含自适应聚类注意的编码层, 提取视频最终的全局特征编码S= {s1, ..., sN}, 所得到的全局视频特征不仅包含整段视频的背景信息, 还应具有事物敏感性 和事件敏感性。 7.根据权利要求1所述的一种基于全局视频特征的密集视频字幕生成方法, 其特征在 于, 事件个数预测采用事 件个数预测头, 具体方法如下: 将事件查询特征 压缩为向量, 然后运用全连接层预测一个固定长度的向量 其中每一个元 素代表事件个数为该值的概 率; 在推理阶段, 选择置信度位于前Linf的提案作为最终的事件划分结果, 每个事件生成字 幕的置信度得分可以通过 下式获得: 其中, 表示在第i个事件中生成第t个目标单词的概率, γ为调制因子, μ为平衡因权 利 要 求 书 2/3 页 3 CN 115190332 A 3

.PDF文档 专利 一种基于全局视频特征的密集视频字幕生成方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于全局视频特征的密集视频字幕生成方法 第 1 页 专利 一种基于全局视频特征的密集视频字幕生成方法 第 2 页 专利 一种基于全局视频特征的密集视频字幕生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:54:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。