专利视频服饰检测方法、装置及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210716242.5 (22)申请日 2022.06.22 (71)申请人商汤集团有限公司地址中国香港新界沙田香港科学园科技大道西一号核心大楼第二座2楼226-230 室 (72)发明人于博文　刘思诚　张伟　旷章辉　冯俐铜　王新江　李治中　 (74)专利代理机构北京派特恩知识产权代理有限公司 1 1270 专利代理师王花丽　徐川 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/10(2022.01) G06V 40/16(2022.01)G06V 10/56(2022.01) G06V 10/54(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称视频服饰检测方法、装置及设备 (57)摘要本公开实施例公开了一种视频服饰检测方法、装置及设备，其中，所述方法包括：对待处理视频的多个视频帧进行分区，确定每一所述视频帧对应的分区信息；对每一所述视频帧进行检测，得到每一所述视频帧中目标人物对应的检测结果；所述检测结果包括所述视频帧中所述目标人物的人物信息和所述目标人物对应的服饰信息；基于每一所述视频帧对应的分区信息，对相同分区内的视频帧的检测结果进行校正，得到每一所述视频帧对应的目标检测结果；其中，相同分区内的视频帧对应的目标检测结果针对目标人物的检测结果相同。权利要求书5页说明书26页附图9页 CN 115049962 A 2022.09.13 CN 115049962 A 1.一种视频服饰检测方法，其特征在于，所述方法包括：对待处理视频的多个视频帧进行分区，确定每一所述视频帧对应的分区信息；对每一所述视频帧进行检测，得到每一所述视频帧中目标人物对应的检测结果；所述检测结果包括所述视频帧中所述目标人物的人物信息和所述目标人物对应的服饰信息；基于每一所述视频帧对应的分区信息，对相同分区内的视频帧的检测结果进行校正，得到每一所述视频帧对应的目标检测结果；其中，相同分区内的视频帧对应的目标检测结果针对目标人物的检测结果相同。 2.根据权利要求1所述的方法，其特征在于，所述对待处理视频的多个视频帧进行分区，确定每一所述视频帧对应的分区信息，包括：获取所述待处理视频对应的多个视频帧；基于每一所述视频帧对应的相邻视频帧集合，确定每一所述视频帧对应的变化类别；所述变化类别用于表征所述视频帧相对于对应的相邻视频帧的变化程度；基于每一所述视频帧对应的变化类别，对所述多个视频帧进行划分，得到每一视频帧对应的分区信息。 3.根据权利要求2所述的方法，其特征在于，所述基于每一所述视频帧对应的相邻视频帧集合，确定每一所述视频帧对应的变化类别，包括：针对每一所述视频帧，将与所述视频帧相邻的至少一个视频帧作为所述视频帧对应的相邻视频帧集合；将所述视频帧对应的相邻视频帧集合输入训练后的视频分割网络，得到所述视频帧对应的变化类别；和/或，所述变化类别包括表征第一变化程度的第一类别和表征第二变化程度的第二类别；所述第二变化程度高于所述第一变化程度；所述基于每一所述视频帧对应的变化类别，对所述多个视频帧进行划分，得到每一视频帧对应的分区信息，包括：基于所述多个视频帧对应的时序关系，对每一所述变化类别对应的视频帧进行聚类，得到至少一个视频帧集合；所述视频帧集合中包括一个视频帧或连续的至少两个视频帧，且所述连续的至少两个视频帧具有相同的变化类别；将位于目标视频帧集合的中心的视频帧作为划分基准，对所述多个视频帧进行划分，得到每一所述视频帧对应的分区信息；所述目标视频帧集合为所述第二类别的视频帧集合。 4.根据权利要求1至3任一项所述的方法，其特征在于，所述对每一所述视频帧进行检测，得到每一所述视频帧中目标人物对应的检测结果，包括：针对每一所述视频帧，对所述视频帧进行人物检测，确定所述视频帧中所述目标人物对应的人物信息；对所述视频帧进行服饰检测，确定所述目标人物对应的服饰的服饰信息。 5.根据权利要求4所述的方法，其特征在于，所述对所述视频帧进行人物检测，确定所述视频帧中所述目标人物对应的人物信息，包括：对所述视频帧进行人脸探测，确定所述视频帧中人脸对应的人脸图像；对所述人脸图像进行人脸特征提取，得到所述人脸对应的待匹配人脸特征；获取预设的人脸特征库，所述人脸特征库包括至少一个预设人物和每一所述预设人物对应的人物信息和多个人脸特征；基于所述待匹配人脸特征与每一所述预设人物对应的多个人脸特征之间的特征距离，权　利　要　求　书 1/5 页 2 CN 115049962 A 2在所述多个预设人物中确定所述人脸对应的目标预设人物，将所述目标预设人物对应的人物信息确定为所述目标人物对应的人物信息。 6.根据权利要求5所述的方法，其特征在于，所述基于所述待匹配人脸特征与每一所述预设人物对应的多个人脸特征之间的特征距离，在所述多个预设人物中确定所述人脸对应的目标预设人物，包括：针对每一所述预设人物，分别确定所述待匹配人脸特征和所述预设人物对应的每一所述人脸特征之间的特征距离；比对每一所述人脸特征的特征距离和预设的距离阈值，确定每一所述人脸特征对应的相似结果；所述相似结果用于表征所述人脸是否对应所述人脸特征对应的预设人物；基于每一所述人脸特征对应的相似结果，在所述多个预设人物中确定所述人脸对应的目标预设人物。 7.根据权利要求6所述的方法，其特征在于，所述基于每一所述人脸特征对应的相似结果，在所述多个预设人物中确定所述人脸对应的目标预设人物，包括：在第一相似结果均对应一个已匹配预设人物的情况下，将所述已匹配预设人物确定为所述目标预设人物；所述第一相似结果表征所述人脸对应所述人脸特征对应的预设人物；在第一相似结果对应至少两个已匹配预设人物的情况下，基于所述待匹配人脸特征与每一所述已匹配预设人物对应的多个人脸特征的特征距离和，在所述至少两个已匹配预设人物中确定所述目标预设人物。 8.根据权利要求4至7任一项所述的方法，其特征在于，所述服饰信息包括服饰的服饰类别，所述对所述视频帧进行服饰检测，确定所述目标人物对应的服饰的服饰信息，包括：提取所述视频帧对应的服饰特征图；基于所述服饰特征图，确定所述视频帧中服饰对应的检测框信息；基于所述服饰对应的检测框信息，确定所述服饰对应的服饰特征；基于所述服饰对应的服饰特征，确定所述服饰的服饰类别。 9.根据权利要求8所述的方法，其特征在于，所述基于所述服饰对应的检测框信息，确定所述服饰对应的服饰特征，包括：基于所述服饰对应的检测框信息，从所述视频帧中截取所述服饰对应的服饰图片；对所述服饰图片进行特征提取，得到所述服饰对应的服饰特征；和/或，所述服饰特征包括多个服饰子特征；所述基于所述服饰对应的检测框信息，确定所述服饰对应的服饰特征，包括：基于所述服饰对应的检测框信息，从所述视频帧中截取所述服饰对应的服饰图片；对所述服饰图片进行数据增强处理，得到所述服饰对应的至少一个相似服饰图片；对所述服饰图片和所述至少一个相似服饰图片进行特征提取，得到所述服饰对应的多个服饰子特征；和/或，所述服饰信息包括所述服饰的数据信息；所述对所述视频帧进行服饰检测，确定所述目标人物对应的服饰的服饰信息，还包括：基于预设服饰库的数据量在第一检索策略和第二检索策略中确定目标检索策略；所述第一检索策略对应的数据量高于所述第二检索策略对应的数据量；所述预设服饰库包括多个预设服饰和每一所述预设服饰对应的数据信息；利用所述目标检索策略，在所述多个预设服饰中确定与所述服饰匹配的至少一个预设服权　利　要　求　书 2/5 页 3 CN 115049962 A 3

专利 视频服饰检测方法、装置及设备

专利视频服饰检测方法、装置及设备