行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210279021.6 (22)申请日 2022.03.19 (71)申请人 上海大学 地址 200444 上海市宝山区上 大路99号 (72)发明人 张麒 徐舟 严逸飞  (74)专利代理 机构 上海交达专利事务所 31201 专利代理师 王毓理 王锡麟 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06T 9/00(2006.01) (54)发明名称 基于形变器的多视图融合分类系统及方法 (57)摘要 一种基于形变器的多视图融合分类系统及 方法, 包括: 图像编码模块、 融合模块、 形变器模 块以及视图分类器模块, 图像编码模块将预处理 后的多视图数据分别进行编码, 得到特征向量, 融合模块对向量进行合并, 得到高维的特征向量 并输入至 形变器模块, 形变器模块通过注意力机 制、 前向反馈、 归一化操作对高维特征进行学习 并得到高阶特征表达, 视图分类器模块分别将高 阶特征表达进行多视图融合分类、 将拆解后的低 维高阶特征进行单视图分类, 得到融合结果和单 视图结果。 本发明采用基于自注意力的形变器, 利用多视图之间存在的相关性和互补性, 摒弃时 序位置编码加快训练速度的同时, 在形变器中使 用自注意力机制自动学习每个特征的权重, 从而 使网络聚焦于对分类结果更有效的特征, 显著提 高分类性能。 权利要求书2页 说明书4页 附图2页 CN 115471690 A 2022.12.13 CN 115471690 A 1.一种基于形变器的多视 图融合分类系统, 其特征在于, 包括: 图像编码模块、 融合模 块、 形变器模块以及视图分类器模块, 其中: 图像编码模块将预处理后的多视图数据分别进 行编码, 得到多个一维特征向量, 融合模块对多个一 维特征向量进 行合并, 得到高维的特征 向量并输入至形变器模块, 形变器模块通过注意力机制、 前向反馈、 归一化操作对高维特征 进行学习并得到高阶特征表达, 视图分类器模块分别将高阶特征表达进行多视图融合分 类、 将拆解后的低维高阶特 征进行单视图分类, 得到融合结果和单视图结果; 所述的合并, 具体是指: 对k个1 ×n维的特征行合并得到包括多个视图的图像特征信息 的k×n维的特征矩阵。 2.根据权利要求1所述的基于形变器的多视图融合分类系统, 其特征是, 所述的图像编 码模块包括: 连续多个的卷积层和池化层, 其中: 卷积层 对输入的多个视图图像分别进行卷 积处理并得到每个视图的局部特征信息, 池化层根据卷积层输出的局部特征信息进一步进 行降采样。 3.根据权利要求1所述的基于形变器的多视图融合分类系统, 其特征是, 所述的形变器 模块包括: 多头注意力机制单元、 前馈传播层以及两个相加归一化层, 其中: 多头注意力机 制单元对合并后的高维特征矩阵进行编码并学习全局依赖关系, 得到多组权重值后, 分别 与高维特征矩阵相乘得到多个加权特征矩阵; 第一相加归一化层对高维特征矩阵和多个加 权特征矩阵行相加以及归一化, 得到多个残差归一化矩阵; 前馈传播层将多个残差归一化 矩阵组合, 并与一个随机初始 化矩阵相乘, 得到前馈矩阵; 第二相加归一化层对 前馈矩阵和 多个加权特 征矩阵相加以及归一 化, 得到高阶特 征。 4.根据权利要求3所述的基于形变器的多视图融合分类系统, 其特征是, 所述的多头注 意力机制单元为多个平行的缩放点积注意力模块堆叠打包组成, 通过并行计算多个Q,K,V 的注意力值并将结果拼接后输出, 其中: 每个缩放点积注意力模块包含Query向量(Q)、 Key 向量(K)和Value 向量(V), 长度均是64, 其通过分别乘以三个不同的权值矩阵WQ,WK,WV后, 计算Query向量和Key向量之间的相似性并且使用Softmax函数对权重进行归一化处理, 最 终Value向量得到 权值矩阵W Q,WK,WV的加权和, 输出高阶特 征大小为k×n维. 5.根据权利要求1所述的基于形变器的多视图融合分类系统, 其特征是, 所述的视图分 类器模块包括: 单视图分类器和多视图融合分类器, 其中: 单视图分类器将形变器模块的输 出的高阶特征拆解成k个与每个视图对应的1 ×n维的低维高阶特征后, 分别得到每个视图 的预测类别概率值, 然后将每个视图的概率值分别与类别标签值计算二者的损失差值, 模 型迭代多次并不断更新参数使得损失差值能够达到最优值; 多视图融合分类器是依据形变 器模块输出的高阶特 征进行多视图分类。 6.根据权利要求4所述的基于形变器的多视图融合分类系统, 其特征是, 所述的单视图 分类器包括: 全 连接层和Softmax层; 所述的多视图融合分类器包括: 多层感知机和Softmax 层。 7.根据权利要求6所述的基于形变器的多视图融合分类系统, 其特征是, 所述的多层感 知机包括两组批量归一化层和密集层, 其中: 第一个密集层 包括一个120个神经元的基于高 斯误差线性单元(GELU)的激活, 后一个密集层 有Softmax激活, 并且使用L2正则化来尽可能 地减少过拟合。 8.一种基于权利要求1~7中任一所述基于形变器的多视图融合分类系统的多视图融权 利 要 求 书 1/2 页 2 CN 115471690 A 2合分类方法, 其特征在于, 通过图像编 码模块连接多视图的编 码输出高维特征向量, 然后通 过串联的缩放点积注意力技术得到包含所有视图的全局依赖关系的高阶矩阵输入至由多 层感知机构成的多视图融合分类模型, 将经拆解为低维高阶向量后输入至由全连接层和 Softmax层构成的单视图分类模型, 从而分别得到综合考虑多视图信息的多视图融合分类 结果和表征视图之间的重要性的单视图分类结果。权 利 要 求 书 2/2 页 3 CN 115471690 A 3

.PDF文档 专利 基于形变器的多视图融合分类系统及方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于形变器的多视图融合分类系统及方法 第 1 页 专利 基于形变器的多视图融合分类系统及方法 第 2 页 专利 基于形变器的多视图融合分类系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:21:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。