行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210810931.2 (22)申请日 2022.07.11 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 郝艳宾 段敬儒 何向南 周鹏远  王硕  (74)专利代理 机构 安徽省合肥新 安专利代理有 限责任公司 34101 专利代理师 陆丽莉 何梅生 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/71(2019.01) G06V 20/40(2022.01) G06V 10/762(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 基于多粒度语境化和多结构保存的无监督 视频哈希检索方法 (57)摘要 本发明公开了一种多粒度语境化和多结构 保存的无监督视频哈希方法, 其步骤包括: 1、 视 频数据集的准备及处理; 2、 构建哈希检索网络; 3、 网络的训练及测试。 本发明能从原始视频数据 捕获更多有用信息, 去除冗余信息, 并将视频数 据之间的内在语义结构信息 保存到哈希码中, 从 而能实现低复杂度开销和 高检索精度的视频检 索。 权利要求书4页 说明书10页 附图3页 CN 115017366 A 2022.09.06 CN 115017366 A 1.一个基于多粒度语境化和多结构保存的无监督视频哈希检索方法, 其特征在于, 包 括: 步骤1、 获取N个不同类别的运动视频, 对每个运动视频均抽取F帧, 从而得到抽取后的N ×F帧运动图像, 将N ×F帧运动图像通过预训练的网络框架VGG ‑16进行处理, 并得到每一帧 对应的C维特征向量, 从而得到维度为N ×F×C的输入特征 其中 表示第i个运动视频的输入特征, 且其维度为F ×C; 表示第i个运动视 频的第f帧运动图像的输入特 征, 且其维度为C; 步骤2、 构建哈希检索网络, 包括: 两个全连接层FC、 两个MLP模块、 三个LMS模块; 其中, 每个LMS模块均包括: L ‑RD模块, M ‑RD模块和S ‑RD模块; 步骤2.1、 所述输入特征V通过第一个全连接层FC(C,D)将维度C 降到维度D后, 再通过 ReLU(·)激活函数, 得到维度为 N×F×D的特征X1; 步骤2.2、 对特征X1先做转置变换后输入第一MLP模块中进行处理, 得到维度为N ×D×F 的特征X2, 再同时通过第一个LMS模块中的L ‑RD模块, M ‑RD模块和S ‑RD模块的处理, 并将三 个模块的输出结果相加 后再做转置变换得到维度为N ×F×D的特征X3, 再将特征X1和特征X3 相加后得到特 征X4; 对特征X4先通过第二MLP模块的处理后输出的结果, 再同时通过第二个LMS模块中的L ‑ RD模块, M ‑RD模块和S ‑RD模块的处理, 并将三个模块的输出结果相加后得到特征X5; 再将特 征X4和特征X5相加后得到特 征X6; 所述特征X6同时通过第三个LMS模块中的L ‑RD模块, M ‑RD模块和S ‑RD模块的处理, 并将 三个模块的输出结果相加后得到维度N ×F×D的隐层特征 其中, 表示第i个运动视频的隐层特征, 且其维度为F ×D; 表示第i个运动视 频的第f帧运动图像的隐层特 征, 且其维度为D; 步骤2.3、 所述隐层 特征E通过第二个全连接层 FC(D,K)将维度D降到维度K, 从而得到维 度为N×F×K的真值特征 其中, 表示第i个运 动视频的真值特征, 且其维度为F ×K; 表示第i个运动视频的第f帧运动图像的真值特征, 且其维度为K; 步骤2.4、 通过式(1)得到第i个运动视频的真值特征Hi所对应的维度为K的松 弛哈希码 式(1)中, Tanh( ·)为激活函数; 步骤2.5、 通过式(2)得到松弛哈希码 所对应的维度为K的哈希码bi: 式(3)中, Sgn( ·)为符号函数; 步骤3、 对输入特征V通过平均池化后得到维度 为N×C的视频平均特征, 再通过K ‑means权 利 要 求 书 1/4 页 2 CN 115017366 A 2算法对视频平均特 征进行聚类, 得到维度为M ×C的聚类中心 uj表示第j个聚类中心; 步骤4、 对第i个隐层 特征Ei通过平均池化后得到维度 为D的特征 通过PCA算法将特征 的维度C降到维度D, 并通过式(2)计算聚类损失Lcluster: 式(2)中, 为距离 最近的聚类中心; 步骤5、 对第i个输入特征Vi通过平均池化后得到维度为C的特征 并通过式(3)得到维 度为N×M的矩阵P: 式(3)中, Pi,j表示P中的第i行第 j列的值, σ 为带宽参数, 为距离 最近的m个聚类中 心, 为距离 最近的第j个聚类中心, 为距离 最近的第c个聚类中心; 步骤10、 通过式(4)和式(5)分别得到维度为 N×N矩阵A和维度为 N×N矩阵A': A=PΛ‑1PT    (4) 式(4)中, Λ表示取矩阵P对角值的对角矩阵, A'j表示A'中的第i行第j列的值, Aij表示A 中的第i行第j列的值; 步骤11、 设置聚类中心的个数m分别为三个不同的取值, 从而得到三个不同的矩阵A '(1), A'(2), A'(3), 并通过式(6)得到维度为 N×N矩阵S: 式(6)中, Sij表示S中的第i行第j列的值; 步骤12、 根据松弛哈希码 和哈希码bi, 通过式(7)计算邻域相似损失Lsim: 式(7)中, 为第j个运动视频的松弛哈希码, θ 为超参数; 步骤13、 根据松弛哈希码 通过式(8)计算四元组损失Lquad:权 利 要 求 书 2/4 页 3 CN 115017366 A 3

.PDF文档 专利 基于多粒度语境化和多结构保存的无监督视频哈希检索方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多粒度语境化和多结构保存的无监督视频哈希检索方法 第 1 页 专利 基于多粒度语境化和多结构保存的无监督视频哈希检索方法 第 2 页 专利 基于多粒度语境化和多结构保存的无监督视频哈希检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:58:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。