行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210220964.1 (22)申请日 2022.03.08 (71)申请人 阿里巴巴 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道网商路69 9号4号楼5楼5 08室 (72)发明人 张宇 吴翔 何源  (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 专利代理师 张子青 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) (54)发明名称 多媒体信息处理方法、 装置、 设备及存储介 质 (57)摘要 本公开涉及一种多媒体信息处理方法、 装 置、 设备及存储介质。 本公开通过将多媒体信息 中的每个模态信息输入与该模态信息对应的特 征提取网络中, 多个模态信息中存在至少一个目 标模态信息, 针对每个目标模态信息, 可 以通过 该目标模态信息对应的特征提取网络中的预设 计算层对该目标模态信息的特征信息和至少一 个其他模态信息的特征信息进行融合处理。 由于 在每个模态信息的特征信息被提取的过程中, 对 不同模态信息的特征信息进行融合即模态间的 特征融合, 因此, 保证了每个模态信息中的部分 信息在丢失之前就可以进行模态间的特征融合。 由于充分利用了多个模态信息 之间的相关性, 从 而实现了 更有效的信息融合, 因此可以准确识别 出多媒体信息中存在的风险。 权利要求书3页 说明书14页 附图5页 CN 114821385 A 2022.07.29 CN 114821385 A 1.一种多媒体信息处 理方法, 其中, 所述方法包括: 获取多媒体信息中的多个模态信息, 所述多个模态信息与多个特征提取网络一一对 应; 将所述多个模态信息中的每 个模态信息 输入与所述模态信息对应的特 征提取网络中; 针对所述多个模态信 息中的至少一个目标模态信 息, 通过所述目标模态信 息对应的特 征提取网络中的预设计算层对所述目标模态信息的特征信息和至少一个其他模态信息的 特征信息进行融合处 理; 根据每个特征提取网络 中最后一个计算层输出的特征信 息, 对所述多媒体信 息进行风 险评估。 2.根据权利要求1所述的方法, 其中, 通过所述目标模态信 息对应的特征提取网络 中的 预设计算层对所述目标模态信息的特征信息和至少一个其他模态信息的特征信息进行融 合处理, 包括: 通过所述目标模态信息对应的特征提取网络中的预设计算层对隐式特征和所述预设 计算层的前一个计算层输出的特征信息进 行融合处理, 所述隐式特征包括至少一个其他模 态信息的特征信息, 所述前一个计算层输出的特征信息至少包括所述目标模态信息的特征 信息。 3.根据权利要求2所述的方法, 其中, 所述多个特征提取网络的结构相同, 每个特征提 取网络分别包括多个 计算层; 根据每个特征提取网络 中最后一个计算层输出的特征信 息, 对所述多媒体信 息进行风 险评估之前, 所述方法还 包括: 将所述融合处理得到的融合结果中的部分信息输入到所述预设计算层的下一个计算 层。 4.根据权利要求3所述的方法, 其中, 所述融合结果包括所述模态信 息更新后的特征信 息; 将所述融合处理得到的融合结果中的部分信息输入到所述预设计算层的下一个计算 层, 包括: 将所述模态信 息更新后的特征信 息输入到所述预设计算层的下一个计算层, 所述模态 信息更新后的特 征信息包括所述隐式特 征。 5.根据权利要求4所述的方法, 其中, 所述融合结果还包括更新后的隐式特征, 所述方 法还包括: 将所述更新后的隐式特征输入到下一个目标模态信息对应的特征提取网络中的预设 计算层, 所述更新后的隐式特 征包括所述前一个 计算层输出的特 征信息。 6.根据权利要求5所述的方法, 其中, 若所述目标模态信 息是所述至少一个目标模态信 息中的最后一个目标模态信息, 则所述下一个目标模态信息是所述至少一个目标模态信息 中的第一个目标模态信息, 所述下一个目标模态信息对应的特征提取网络中的预设计算层 的层级高于所述目标模态信息对应的特 征提取网络中的预设计算层的层级。 7.根据权利要求5所述的方法, 其中, 若所述目标模态信 息不是所述至少一个目标模态 信息中的最后一个目标模态信息, 则所述下一个目标模态信息对应的特征提取网络中的预 设计算层的层级与所述目标模态信息对应的特 征提取网络中的预设计算层的层级相同。权 利 要 求 书 1/3 页 2 CN 114821385 A 28.一种信息融合方法, 其中, 所述方法包括: 获取虚拟现实设备周围环境中的真实世界信息和所述虚拟现实设备的显示组件所呈 现的虚拟世界信息; 将所述真实世界信 息输入第 一特征提取网络, 将所述虚拟世界信 息输入第 二特征提取 网络; 通过所述第一特征提取网络中的预设计算层对所述真实世界信息的特征信息和所述 虚拟世界信息的特征信息进 行融合处理, 和/或, 通过所述第二特征提取网络中的预设计算 层对所述虚拟世界信息的特 征信息和所述真实世界信息的特 征信息进行融合处 理。 9.一种对象识别方法, 其中, 所述方法包括: 获取第一图像, 所述第一图像是目标对象在第一成像条件下 得到的; 调整所述第一成像条件, 得到第二成像条件; 获取第二图像, 所述第二图像是 所述目标对象在所述第二成像条件下 得到的; 根据所述第一图像、 所述第 二图像、 所述第一成像条件和所述第二成像条件, 确定所述 目标对象是否为实物对象。 10.根据权利要求9所述的方法, 其中, 根据所述第一图像、 所述第二图像、 所述第一成 像条件和所述第二成像条件, 确定所述目标对象是否为实物对象, 包括: 将所述第一图像输入第一特 征提取网络, 将所述第二图像输入第二特 征提取网络; 通过所述第一特征提取网络对所述第一图像的图像特征和所述第二图像的图像特征 进行融合处理, 得到第一组图像特征, 和/或, 通过所述第二特征提取网络对所述第二图像 的图像特 征和所述第一图像的图像特 征进行融合处 理, 得到第二组图像特 征; 根据所述第 一组图像特征和所述第 二组图像特征之间的差异、 以及所述第 一成像条件 和所述第二成像条件之间的差异, 确定所述 目标对象的一个或多个目标属 性, 所述目标属 性与成像条件无关; 根据所述 一个或多个目标属性, 确定所述目标对象是否为实物对象。 11.一种多媒体信息处 理装置, 其中, 包括: 获取模块, 用于获取多媒体信息中的多个模态信息, 所述多个模态信息与多个特征提 取网络一 一对应; 第一输入模块, 用于将所述多个模态信 息中的每个模态信 息输入与 所述模态信 息对应 的特征提取网络中; 融合模块, 用于针对所述多个模态信息中的至少一个目标模态信息, 通过所述目标模 态信息对应的特征提取网络中的预设计算层对所述目标模态信息的特征信息和至少一个 其他模态信息的特 征信息进行融合处 理; 风险评估模块, 用于根据每个特征提取网络中最后一个计算层输出的特征信息, 对所 述多媒体信息进行风险评估。 12.一种电子设备, 其中, 包括: 存储器; 处理器; 以及 计算机程序; 其中, 所述计算机程序存储在所述存储器中, 并被配置为由所述处理器执行以实现如权 利 要 求 书 2/3 页 3 CN 114821385 A 3

.PDF文档 专利 多媒体信息处理方法、装置、设备及存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多媒体信息处理方法、装置、设备及存储介质 第 1 页 专利 多媒体信息处理方法、装置、设备及存储介质 第 2 页 专利 多媒体信息处理方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:22:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。