专利一种识别多标签行为的方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210425904.3 (22)申请日 2022.04.22 (71)申请人杭州魔点科技有限公司地址 310000 浙江省杭州市余杭区五常街道三维智汇中心3幢A单元7层 (72)发明人张翼翔　叶小培　张江峰　 (74)专利代理机构杭州创智卓英知识产权代理事务所(普通合伙) 33324 专利代理师季健康 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/44(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种识别多标签行为的方法和装置 (57)摘要本发明实施例公开了一种识别多标签行为的方法和装置。该方法包括：依据预先训练的行为识别模型对输入图像进行识别，得到特征图；依据特征图提取关键区域；依据关键区域获取至少一个行为的特异性特征；依据至少一个行为的特异性特征获取各行为之间的相关性特征；依据特异性特征和相关性特征进行分类，得到各行为对应的分类结果。本发明提供的方案能够实现对视频中出现的多标签行为进行准确识别。权利要求书2页说明书9页附图3页 CN 114550310 A 2022.05.27 CN 114550310 A 1.一种识别多标签行为的方法，其特征在于，包括：依据预先训练的行为识别模型对输入图像进行识别，得到特征图；依据所述特征图提取关键区域；依据所述关键区域获取至少一个行为的特异性特征；依据所述至少一个行为的特异性特征获取各行为之间的相关性特征；依据所述特异性特征和所述相关性特征进行分类，得到各行为对应的分类结果。 2.根据权利要求1所述的方法，其特征在于，在所述依据预先训练的行为识别模型对输入图像进行识别之前，所述方法还包括：获取训练图像；将所述训练图像作为输入图像输入端到端网络模型，获取所述训练图像中至少一个行为的特异性特征；依据所述至少一个行为的特异性特征获取各行为之间的相关性特征；依据所述特异性特征和所述相关性特征对所述端到端网络模型进行训练，直至所述端到端网络模型收敛，得到所述行为识别模型。 3.根据权利要求2所述的方法，其特征在于，所述依据所述特异性特征和所述相关性特征对所述端到端网络模型进行训练，直至所述端到端网络模型收敛，得到所述行为识别模型包括：将所述特异性特征和所述相关性特征作为所述端到端网络模型的输入数据；将所述输入数据通过所述端到端网络模型的全连接层，得到对应所述特异性特征的第一特征值和对应所述相关性特征的第二特征值；将所述第一特征值和所述第二特征值输入softmax层，得到分类结果；依据分类结果和所述输入数据对所述端到端网络模型进行训练，直至所述端到端网络模型收敛，得到所述行为识别模型。 4.根据权利要求3所述的方法，其特征在于，在所述将所述第一特征值和所述第二特征值输入softmax层，得到分类结果之后，所述方法还包括：将所述分类结果送入预设损失函数计算损失值，进行梯度的反向传播，更新参数；其中，所述预设损失函数，用于分类任务。 5.根据权利要求1所述的方法，其特征在于，所述依据预先训练的行为识别模型对输入图像进行识别，得到特征图包括：在所述输入图像包括视频的情况下，将预设维度的所述视频输入所述行为识别模型进行图像提取，得到所述特征图，其中，所述预设维度包含通道数、时间、宽和高。 6.根据权利要求1或5所述的方法，其特征在于，所述依据所述特征图提取关键区域包括：通过在所述特征图上应用多个注意力模块，从所述特征图中提取所述关键区域。 7.根据权利要求6所述的方法，其特征在于，所述依据所述关键区域获取至少一个行为的特异性特征包括：依据所述关键区域通过注意力机制激活，得到所述关键区域中所述至少一个行为的特异性特征。 8.根据权利要求7所述的方法，其特征在于，所述依据所述至少一个行为的特异性特征权　利　要　求　书 1/2 页 2 CN 114550310 A 2获取各行为之间的相关性特征包括：依据所述至少一个行为的特异性特征通过统计各行为间的相关性，生成相关性矩阵；依据所述相关性矩阵，获取所述各行为之间的相关性特征。 9.根据权利要求8所述的方法，其特征在于，所述依据所述特异性特征和所述相关性特征进行分类，得到各行为对应的分类结果包括：将所述特异性特征和所述相关性特征作为所述行为识别模型的输入数据；将所述输入数据通过所述行为识别模型的全连接层，得到对应所述特异性特征的第一特征值和对应所述相关性特征的第二特征值；将所述第一特征值和所述第二特征值输入softmax层，得到所述分类结果。 10.一种识别多标签行为的装置，其特征在于，包括：识别模块，用于依据预先训练的行为识别模型对输入图像进行识别，得到特征图；提取模块，用于依据所述特征图提取关键区域；第一获取模块，用于依据所述关键区域获取至少一个行为的特异性特征；第二获取模块，用于依据所述至少一个行为的特异性特征获取各行为之间的相关性特征；分类模块，用于依据所述特异性特征和所述相关性特征进行分类，得到各行为对应的分类结果。权　利　要　求　书 2/2 页 3 CN 114550310 A 3

专利 一种识别多标签行为的方法和装置

专利一种识别多标签行为的方法和装置