行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210425904.3 (22)申请日 2022.04.22 (71)申请人 杭州魔点科技有限公司 地址 310000 浙江省杭州市余杭区五常街 道三维智汇中心3幢A单 元7层 (72)发明人 张翼翔 叶小培 张江峰  (74)专利代理 机构 杭州创智卓英知识产权代理 事务所(普通 合伙) 33324 专利代理师 季健康 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/44(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种识别多标签行为的方法和装置 (57)摘要 本发明实施例公开了一种识别多标签行为 的方法和装置。 该方法包括: 依据预先训练的行 为识别模型对输入图像进行识别, 得到特征图; 依据特征图提取关键区域; 依据关键区域获取至 少一个行为的特异性特征; 依据至少一个行为的 特异性特征获取各行为之间的相关性特征; 依据 特异性特征和相关性特征进行分类, 得到各行为 对应的分类结果。 本发明提供的方案能够实现对 视频中出现的多标签行为进行准确识别。 权利要求书2页 说明书9页 附图3页 CN 114550310 A 2022.05.27 CN 114550310 A 1.一种识别多标签行为的方法, 其特 征在于, 包括: 依据预先训练的行为识别模型对输入图像进行识别, 得到特 征图; 依据所述特 征图提取关键区域; 依据所述关键区域获取至少一个行为的特异性特 征; 依据所述至少一个行为的特异性特 征获取各行为之间的相关性特 征; 依据所述特异性特 征和所述相关性特 征进行分类, 得到各 行为对应的分类结果。 2.根据权利要求1所述的方法, 其特征在于, 在所述依据 预先训练 的行为识别模型对输 入图像进行识别之前, 所述方法还 包括: 获取训练图像; 将所述训练图像作为输入图像输入端到端网络模型, 获取所述训练图像中至少一个行 为的特异性特 征; 依据所述至少一个行为的特异性特 征获取各行为之间的相关性特 征; 依据所述特异性特征和所述相关性特征对所述端到端 网络模型进行训练, 直至所述端 到端网络模型收敛, 得到所述行为识别模型。 3.根据权利要求2所述的方法, 其特征在于, 所述依据所述特异性特征和所述相关性特 征对所述端到端网络模型进行训练, 直至所述端到端网络模型收敛, 得到所述行为识别模 型包括: 将所述特异性特 征和所述相关性特 征作为所述端到端网络模型的输入数据; 将所述输入数据通过所述端到端 网络模型的全连接层, 得到对应所述特异性特征的第 一特征值和对应所述相关性特 征的第二特 征值; 将所述第一特 征值和所述第二特 征值输入softmax层, 得到分类结果; 依据分类结果和所述输入数据对所述端到端 网络模型进行训练, 直至所述端到端网络 模型收敛, 得到所述行为识别模型。 4.根据权利要求3所述的方法, 其特征在于, 在所述将所述第 一特征值和所述第 二特征 值输入softmax层, 得到分类结果之后, 所述方法还 包括: 将所述分类结果送入预设损失函数计算损失值, 进行梯度的反向传播, 更新参数; 其 中, 所述预设损失函数, 用于分类任务。 5.根据权利要求1所述的方法, 其特征在于, 所述依据预先训练 的行为识别模型对输入 图像进行识别, 得到特 征图包括: 在所述输入图像包括视频的情况下, 将预设维度的所述视频输入所述行为识别模型进 行图像提取, 得到所述特 征图, 其中, 所述预设维度包 含通道数、 时间、 宽和高。 6.根据权利要求1或5所述的方法, 其特征在于, 所述依据所述特征图提取关键区域包 括: 通过在所述特 征图上应用多个注意力模块, 从所述特 征图中提取 所述关键区域。 7.根据权利要求6所述的方法, 其特征在于, 所述依据所述关键区域获取至少一个行为 的特异性特 征包括: 依据所述关键区域通过注意力 机制激活, 得到所述关键区域中所述至少一个行为的特 异性特征。 8.根据权利要求7所述的方法, 其特征在于, 所述依据所述至少一个行为的特异性特征权 利 要 求 书 1/2 页 2 CN 114550310 A 2获取各行为之间的相关性特 征包括: 依据所述至少一个行为的特异性特 征通过统计各 行为间的相关性, 生成相关性矩阵; 依据所述相关性矩阵, 获取 所述各行为之间的相关性特 征。 9.根据权利要求8所述的方法, 其特征在于, 所述依据所述特异性特征和所述相关性特 征进行分类, 得到各 行为对应的分类结果包括: 将所述特异性特 征和所述相关性特 征作为所述行为识别模型的输入数据; 将所述输入数据通过所述行为识别模型的全连接层, 得到对应所述特异性特征的第 一 特征值和对应所述相关性特 征的第二特 征值; 将所述第一特 征值和所述第二特 征值输入softmax层, 得到所述分类结果。 10.一种识别多标签行为的装置, 其特 征在于, 包括: 识别模块, 用于依据预 先训练的行为识别模型对输入图像进行识别, 得到特 征图; 提取模块, 用于依据所述特 征图提取关键区域; 第一获取模块, 用于依据所述关键区域获取至少一个行为的特异性特 征; 第二获取模块, 用于依据所述至少一个行为的特异性特征获取各行为之间的相关性特 征; 分类模块, 用于依据所述特异性特征和所述相关性特征进行分类, 得到各行为对应的 分类结果。权 利 要 求 书 2/2 页 3 CN 114550310 A 3

PDF文档 专利 一种识别多标签行为的方法和装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种识别多标签行为的方法和装置 第 1 页 专利 一种识别多标签行为的方法和装置 第 2 页 专利 一种识别多标签行为的方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。