行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221046716 6.9 (22)申请日 2022.04.24 (71)申请人 同济大学 地址 200092 上海市杨 浦区四平路1239号 (72)发明人 王瀚漓 齐秋平 苏泰毅  (74)专利代理 机构 上海科盛知识产权代理有限 公司 312 25 专利代理师 翁惠瑜 (51)Int.Cl. G06V 40/10(2022.01) G06V 40/20(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称 基于先验知识的直推式广义零样本视频行 为识别方法 (57)摘要 本发明涉及一种基于先验知识的直推式广 义零样本视频行为识别方法, 该方法通过一直推 式广义零样本视频行为识别模型对待识别视频 进行行为类别识别, 其中, 所述直推式广义零样 本视频行为识别模型利用有标记的源数据和无 标记的目标数据训练获得, 训练过程包括: 构建 第一模型, 在先验数据集上进行先验知识学习, 得到参数 构建与所述第一模型结构相同的第 二模型, 以所述参数 作为初始化参数, 在源数 据集上进行源学习, 得到参数θs; 在所述第二模 型上添加标签预测模块, 构建获得第三模型, 在 源数据集和目标数据集上进行直推式学习。 与现 有技术相比, 本发明具有样本需求少、 识别准确 率等优点。 权利要求书1页 说明书9页 附图2页 CN 114926855 A 2022.08.19 CN 114926855 A 1.一种基于先验知识的直推式广义零样本视频行为识别方法, 其特征在于, 该方法通 过一直推式广义 零样本视频行为识别模型对待识别视频进行 行为类别识别, 其中, 所述直推式广义零样本视频行为识别模型利用有标记的源数据和无标记的目标数据 训练获得, 训练过程包括: 构建第一模型, 在先验数据集上进行 先验知识学习, 得到参数 构建与所述第一模型结构相同的第二模型, 以所述参数 作为初始化参数, 在源数据集 上进行源学习, 得到参数θs; 在所述第二模型上添加标签预测模块, 构建获得第三模型, 在源数据集和目标数据集 上进行直推式学习, 训练完成的第三模型即为直推式广义零样本视频行为识别模型, 所述 标签预测模块的权 重wpre基于源类和目标类的规范化语义向量获得。 2.根据权利要求1所述的基于先验知识的直推式广义零样本视频行为识别方法, 其特 征在于, 所述第一模 型和第二模型均包括视觉特征编码模块和视觉语义桥接模块, 其中, 所 述视觉特征编 码模块用于对输入视频序列进 行视频特征提取, 所述视觉语义桥接模块用于 将所述视频特征投射到公共语义空间中, 获得语义嵌入, 所述公共语义空间基于所述源数 据和目标 数据构建。 3.根据权利要求2所述的基于先验知识的直推式广义零样本视频行为识别方法, 其特 征在于, 所述视觉特征编码模块中, 利用三维卷积神经网络对包含多帧的视频帧序列进行 时空域卷积, 使用时空卷积块作为视 觉编码器, 获取 所述视觉特征。 4.根据权利要求2所述的基于先验知识的直推式广义零样本视频行为识别方法, 其特 征在于, 所述视 觉语义桥接模块包括多个带有ReLU非线性激活层的全连接层。 5.根据权利要求2所述的基于先验知识的直推式广义零样本视频行为识别方法, 其特 征在于, 所述公共语义空间中, 使语义相似的语义嵌入在语义空间中接近, 采用类名 的 Word2vec表示。 6.根据权利要求1所述的基于先验知识的直推式广义零样本视频行为识别方法, 其特 征在于, 对先验数据集与源类和目标类之间进行类别语义关系的相似度剔除处理后, 再进 行所述先验知识学习。 7.根据权利要求1所述的基于先验知识的直推式广义零样本视频行为识别方法, 其特 征在于, 所述源学习中, 以均方误差损失作为损失函数。 8.根据权利要求1所述的基于先验知识的直推式广义零样本视频行为识别方法, 其特 征在于, 所述 直推式学习中, 以交叉熵损失和偏差损失作为损失函数。 9.根据权利要求1所述的基于先验知识的直推式广义零样本视频行为识别方法, 其特 征在于, 所述进行行为类别识别时, 基于所述直推式广义零样本视频行为识别模型输出 的 概率得分确定待识别视频属于源类还是目标类, 若属于源类, 则基于第二模型确定预测类 别标签, 若属于目标类, 则基于第一模型确定预测类别标签。 10.一种电子设备, 其特征在于, 包括: 存储器和处理器, 所述存储器和所述处理器之间 互相通信连接, 所述存储器中存储有计算机指 令, 所述处理器通过执行所述计算机指 令, 从 而执行如权利要求1 ‑9任一项所述的直推式广义 零样本视频行为识别方法。权 利 要 求 书 1/1 页 2 CN 114926855 A 2基于先验 知识的直推式广义零样本视频行为识别方 法 技术领域 [0001]本发明涉及视频行为识别领域, 尤其是涉及一种基于先验知识的直推式广义零样 本视频行为识别方法。 背景技术 [0002]行为识别是视频理解方向很重要的一个问题, 至今为止已研究多年, 数据量的急 剧增长和计算能力的不断提高将全监督动作识别推向了顶峰。 尽管已有的动作 识别方法已 经取得了成功, 但它们受到了对大量标记数据的需求的限制 。 与收集更多的数据并对所有 类别进行详尽的标注相比, 一种有效而长远的替代方法 “零样本学习 ”引起了越来越多的关 注。 零样本学习旨在将知识从已见类转移到未见类。 通过调查发现, 虽然已经有了一些关于 静止图像中的零样 本行为识别的研究和实验, 如专利申请 CN114037879A公开一种面向零样 本识别的字典学习 方法及装置, 可以实现高精度的零样本图像识别。 但是目前针对视频 的 研究还相对较少。 [0003]此外, 零样本学习中有两个设置, 即常规设置和广义设置。 与常规设置相比, 广义 零样本学习 是零样本学习的一种 更加现实的变体, 因为在训练时可以获取相同的信息, 但 常规设置只取未见视频作为测试数据, 而广义设置则同时取已见和未见视频进行测试, 模 型效果是根据可见和未见类分类精度的调和平均值来判断的, 所以现有的零样本学习方法 在广义设置下的效果远差于传统设置, 特别是对于不平衡的、 大的数据集。 因此, 研究如何 在广义小样本学习这 一设定下, 提高视频 人体行为识别的效果 就具有很现实的意 义。 发明内容 [0004]本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种样本需求少、 识 别准确率的基于先验知识的直推式广义 零样本视频行为识别方法。 [0005]本发明的目的可以通过以下技 术方案来实现: [0006]一种基于先验知识的直推式广义零样本视频行为识别方法, 该方法通过一直推式 广义零样本视频行为识别模型对待识别视频进行 行为类别识别, 其中, [0007]所述直推式广义零样本视频行为识别模型利用有标记的源数据和无标记的目标 数据训练获得, 训练过程包括: [0008]构建第一模型, 在先验数据集上进行 先验知识学习, 得到参数 [0009]构建与所述第一模型结构相同的第二模型, 以所述参数 作为初始化参数, 在源数 据集上进行源学习, 得到参数θs; [0010]在所述第二模型上添加标签预测模块, 构建获得第三模型, 在源数据集和目标数 据集上进行直推式学习, 训练完成的第三模型即为直推式广义零样本视频行为识别模型, 所述标签预测模块的权 重wpre基于源类和目标类的规范化语义向量获得。 [0011]进一步地, 所述第一模型和第二模型均 包括视觉特征编码模块和视觉语义桥接模 块, 其中, 所述视觉特征编 码模块用于对输入视频序列进行视频特征提取, 所述视觉语义桥说 明 书 1/9 页 3 CN 114926855 A 3

PDF文档 专利 基于先验知识的直推式广义零样本视频行为识别方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于先验知识的直推式广义零样本视频行为识别方法 第 1 页 专利 基于先验知识的直推式广义零样本视频行为识别方法 第 2 页 专利 基于先验知识的直推式广义零样本视频行为识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。