专利一种针对人脸深度聚类的多层次去偏方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210921862.2 (22)申请日 2022.08.02 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人陈晋音　曹志骐　郑海斌　 (74)专利代理机构杭州天正专利事务所有限公司 33201 专利代理师楼明阳 (51)Int.Cl. G06V 10/762(2022.01) G06V 10/82(2022.01) G06V 40/16(2022.01) G06N 3/04(2006.01) G06N 3/06(2006.01)G06N 3/08(2006.01) (54)发明名称一种针对人脸深度聚类的多层次去偏方法 (57)摘要一种针对人脸深度聚类的多层次去偏方法，包括： (1)获取人脸数据集； (2)对获取的人脸数据集基于数据增强的方法进行预处理，来扩充数据集； (3)搭建深度聚类模型,设计深度表征学习模型和聚类模型，通过反馈机制实现深度聚类； (4)深度表征学习去偏，基于均值滤波对深度表征学习模型中的偏见神经元进行去偏； (5)聚类算法去偏，基于生成式对抗网络对聚类算法K ‑ Means进行数据去偏，搭建去偏生成网络和去偏判别网络，设计针对聚类算法去偏的损失函数； (6)交替联合去偏,对步骤(4)和步骤(5)已经完成去偏操作的模型进行交替联合，即将深度表征学习模型和聚类模型组合成深度聚类模型，对深度聚类模型进行一个联合去偏。权利要求书3页说明书8页附图2页 CN 115546523 A 2022.12.30 CN 115546523 A 1.一种针对人脸深度聚类的多层次去偏方法，包括如下步骤： (1)获取人脸数据集，并且定义人脸数据集中的人脸样本为X＝{x1,x2,…,xi,…,xn}，人脸样本对应的标签为Y＝{y1,y2,…,yi,…yn}，总样本数划分训练集和测试集，其中每个人脸样本图像定义为(l,h,c)分别指长、高以及通道数； (2)对获取的人脸数据集基于数据增强的方法进行预处理，来扩充数据集； (3)搭建深度聚类模型；设计深度表征学习模型和聚类模型，深度表征学习模型作为特征提取器对人脸数据的特征进行提取，聚类模型则是用于特征的分类，通过反馈机制实现深度聚类； (3‑1)设计深度表征学习模型；深度表征学习模型是基于自编码器技术实现，深度表征学习模型对输入的人脸样本进行特征提取以及对相应的样本标签，自编码器由编码器fr和解码器gu两个网络组成，通过对输入样本进行重建来学习样本特征ai＝fr(xi)，损失函数为：其中， xi是人脸样本， n是指给定样本xi的个数， fr是编码器，即将高维度的输入人脸样本编码成低维度的隐变量ai， r则是编码器fr的权重参数， gu是解码器，即将编码过后的隐变量ai解码为高维度的人脸样本xi， u则是解码器gu的权重参数，则是指输入人脸样本xi与经过自编码器编解码之后的人脸样本xi之间的距离度量； (3‑2)设计聚类模型；聚类模型是基于K ‑Means聚类算法实现，聚类模型通过上一级深度表征学习模型提取到的特征将人脸样本进行分组， K ‑Means是通过最小化类内均方误差实现对样本的划分，损失函数为：其中， xi是人脸样本， n是指给定样本xi的个数， μ指的是聚类的中心， K是指聚类中心 μ的初始化个数， fw(·)是以w为参数的神经网络映射，即将人脸样本xi映射到新的空间， w是指神经网络的权重参数，是指映射到新空间的人脸样本xi与聚类中心μj之间的距离， s是指聚类的标签， sij则是指样本i是否属于类别j，是为1，否为0； (3‑3)合成深度聚类模型；将深度表征学习模型的损失函数Ln与聚类模型损失函数Lc相结合，得到合成深度聚类模型的最终损失函数： Lnc＝α Ln+β Lc (3) 其中， α 是深度表征学习模型损失函数Ln的超参数， α ≥0， β 是聚类模型损失函数Lc的超参数， β >0； (4)深度表征学习去偏，基于均值滤波对深度表征学习模型中的偏见神经元进行去偏； (4‑1)查找深度表征学习模型中的偏见神经元，区分正常神经元和偏见神经元，并标记偏见神经元； (4‑2)基于k‑近邻平均的偏见神经元权值修改；取偏见神经元附近的m个神经元的权权　利　要　求　书 1/3 页 2 CN 115546523 A 2值，并将这些神经元的权值求和取平均最后再赋值给偏见神经元；其中， m表示偏见神经元权值的周围正常神经元的个数， wj是指偏见神经元周围的第j个正常神经元的权值； (4‑3)将赋予新权值的偏见神经元代入原深度表征学习模型加以训练得到去偏后的新模型； (4‑4)重复步骤(4 ‑1)、 (4‑2)和(4‑3)直到所有神经元的AUC值小于预设的阈值，深度表征学习模型去偏完成； (5)聚类算法去偏，基于生成式对抗网络对聚类算法K ‑Means进行数据去偏，搭建去偏生成网络和去偏判别网络，设计针对聚类算法去偏的损失函数； (5‑1)构建去偏判别网络，通过加入KL散度惩罚项对原有的去偏判别网络损失函数进行优化实现对聚类算法的去偏；损失函数：其中， xi是人脸数据集{x1,x2,x3,…,xn}中的真实样本， i指该组样本中的第i个样本， n 指的是这一组人脸数据集中的样本总个数， D(xi)是指真实人脸样本经去偏判别网络处理后得到的一个介于(0,1)的值， D( ·)是sigmoid函数，即 x'i则是由去偏生成网络生成的人脸样本数据{x'1,x'2,x'3,…,x'n}， x'i＝G(zi)， D(x'i)是指生成人脸样本经去偏判别网络处理后得到的介于(0,1)的值， KL(xi||x'i)指的是xi与x'i的KL散度， λ1则指超参数；梯度函数：其中， θd是去偏判别网络中需要优化的参数， η指的是学习率，即每次更新的θd的步长，是指目标函数在整个数据集上对参数θd计算梯度； (5‑2)构建去偏生成网络，通过加入KL散度惩罚项对原有的去偏生成网络损失函数进行优化实现对聚类算法的去偏；损失函数：其中， zi是用于去偏生成网络生成样本，从分布中采样一批噪声样本{zi,z2,z3,…,zn}， i指该批样本中的第i个样本， n指的是这批采样到的噪声样本的总个数， G(zi)是指由去偏生成网络生成的人脸样本， D(G(zi))是指生成样本经去偏判别网络处理后得到的介于(0, 1)的值， KL(xi||x'i)指的是xi与x'i的KL散度， λ2则指超参数；梯度函数：权　利　要　求　书 2/3 页 3 CN 115546523 A 3

专利 一种针对人脸深度聚类的多层次去偏方法

专利一种针对人脸深度聚类的多层次去偏方法