专利一种后门攻击的防御方法和系统

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111354846.1 (22)申请日 2021.11.16 (65)同一申请的已公布的文献号申请公布号 CN 113792289 A (43)申请公布日 2021.12.14 (73)专利权人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人范洺源　陈岑　王力　 (74)专利代理机构成都七星天知识产权代理有限公司 5125 3 代理人袁春晓 (51)Int.Cl. G06F 21/55(2013.01) G06N 20/00(2019.01)G06N 3/08(2006.01) 审查员冉凡坤 (54)发明名称一种后门攻击的防御方法和系统 (57)摘要本说明书实施例提供了一种后门攻击的防御方法和系统，方法包括：获取触发器以及目标标签；基于触发器及目标标签对后门模型进行遗忘训练，以获得能够防御后门攻击的目标模型。可以实现有效地防御攻击者对于模型的后门攻击。权利要求书4页说明书17页附图8页 CN 113792289 B 2022.03.25 CN 113792289 B 1.一种后门攻击的防御方法，其包括：基于后门模型生成与其真实触发器对应的一个或多个重建触发器，并确定目标标签；所述真实触发器使得，当后门模型的输入数据包含所述真实触发器时，所述后门模型输出所述目标标签；基于一个或多个重建触发器及所述目标标签对所述后门模型进行遗忘训练，以获得能够防御后门攻击的目标模型；所述基于一个或多个重建触发器及所述目标标签对所述后门模型进行遗忘训练包括：将一个或多个重建触发器添加到干净样本中，得到后门样本；利用所述后门模型处理所述后门样本，得到第一预测标签；调整所述后门模型的模型参数，至少使得所述第一预测标签与所述目标标签的差异增加。 2.如权利要求1所述的方法，所述调整所述后门模型的模型参数，至少使得所述第一预测标签与所述目标标签的差异增加，包括：基于所述第一预测标签与所述目标标签的差异确定各模型参数对应的第一梯度；在各模型参数上增加对应的第一梯度。 3.如权利要求1所述的方法，所述基于一个或多个重建触发器及所述目标标签对所述后门模型进行遗忘训练，还包括：利用所述后门模型处理干净样本，得到第二预测标签；调整所述后门模型的模型参数，使得所述第二预测标签与所述干净样本对应的标签的差异减小。 4.如权利要求1所述的方法，所述基于一个或多个重建触发器及所述目标标签对所述后门模型进行遗忘训练，还包括：确定所述后门模型的各模型参数对于干净样本的预测权重；对各模型参数的调整幅度与对应的预测权重负相关。 5.如权利要求4所述的方法，所述预测权重与模型参数对应的第二梯度的绝对值正相关，模型参数对应的第二梯度为第二预测标签与干净样本对应的标签的差异相对该模型参数的梯度。 6.如权利要求1所述的方法，所述基于一个或多个重建触发器及所述目标标签对所述后门模型进行遗忘训练，还包括：利用所述后门模型处理干净样本，得到第二预测标签；基于第一目标函数调整所述后门模型的模型参数，以使得所述第一目标函数减小；所述第一目标函数与第一损失函数负相关、与第二损失函数正相关以及与第一约束项正相关；其中，第一损失函数反映第一预测标签与目标标签的差异，第二损失函数反映第二预测标签与干净样本对应的标签的差异，第一约束项反映各模型参数差异基于其分别对应的预测权重进行加权求和的结果，所述模型参数差异为当前某模型参数与其原模型参数的差异，所述预测权重与模型参数对应的第二梯度的绝对值正相关，模型参数对应的第二梯度为第二预测标签与干净样本对应的标签的差异相对该模型参数的梯度。 7.如权利要求1所述的方法，基于后门模型生成与其真实触发器对应的一个或多个重建触发器，并确定目标标签，包括，针对所述后门模型的标签空间中的某一标签：权　利　要　求　书 1/4 页 2 CN 113792289 B 2获得触发器生成模型组，并基于其获取候选触发器；将候选触发器添加到多个干净样本中，得到多个中毒样本；利用所述后门模型处理多个中毒样本，以获取攻击成功率；攻击成功率反映包含候选触发器的中毒样本使得所述后门模型输出该标签的概率；当攻击成功率大于第一阈值时，将该标签作为所述目标标签，将所述候选触发器作为重建触发器。 8.如权利要求7所述的方法，所述触发器生成模型组包括多个生成器，其中，生成器用于基于噪声数据生成触发器，不同生成器对应不同的攻击成功率预设值。 9.如权利要求8所述的方法，针对所述后门模型的标签空间中的某一标签，获得触发器生成模型组，包括对于所述触发器生成模型组中的某一生成器：生成第一噪声数据；通过该生成器处理第一噪声数据，得到预估触发器；将预估触发器添加到干净样本中，得到中毒样本；利用所述后门模型处理中毒样本，得到针对所述某一标签的预测概率；当所述预测概率小于该生成器对应的攻击成功率预设值时，调整所述生成器的模型参数，以减小所述预测概率与该攻击成功率预设值的差异。 10.如权利要求9所述的方法，针对所述后门模型的标签空间中的某一标签，获得触发器生成模型组，还包括对于所述某一生成器：生成与所述第一噪声数据同分布的第二噪声数据；通过与该生成器对应的互信息估计器获得所述预估触发器对应的反推噪声数据与第二噪声数据的互信息；调整所述生成器的模型参数，以增加所述互信息。 11.一种后门攻击的防御系统，包括：重建触发器获取模块，用于基于后门模型生成与其真实触发器对应的一个或多个重建触发器，并确定目标标签；所述真实触发器使得，当后门模型的输入数据包含所述真实触发器时，所述后门模型输出所述目标标签；第一后门模型防御模块，用于基于一个或多个重建触发器及所述目标标签对所述后门模型进行遗忘训练，以获得能够防御后门攻击的目标模型；所述基于一个或多个重建触发器及所述目标标签对所述后门模型进行遗忘训练包括：将一个或多个重建触发器添加到干净样本中，得到后门样本；利用所述后门模型处理所述后门样本，得到第一预测标签；调整所述后门模型的模型参数，至少使得所述第一预测标签与所述目标标签的差异增加。 12.一种后门攻击的防御装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如权利要求1 ‑10中任一项权利要求所述的后门攻击的防御方法。 13.一种后门攻击的防御方法，其包括：获取后门模型的触发器，以及目标标签；所述触发器使得，当后门模型的输入数据包含所述触发器时，所述后门模型输出所述目标标签；权　利　要　求　书 2/4 页 3 CN 113792289 B 3

专利 一种后门攻击的防御方法和系统

专利一种后门攻击的防御方法和系统