行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111354846.1 (22)申请日 2021.11.16 (65)同一申请的已公布的文献号 申请公布号 CN 113792289 A (43)申请公布日 2021.12.14 (73)专利权人 支付宝 (杭州) 信息技 术有限公司 地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人 范洺源 陈岑 王力  (74)专利代理 机构 成都七星天知识产权代理有 限公司 5125 3 代理人 袁春晓 (51)Int.Cl. G06F 21/55(2013.01) G06N 20/00(2019.01)G06N 3/08(2006.01) 审查员 冉凡坤 (54)发明名称 一种后门攻击的防御方法和系统 (57)摘要 本说明书实施例提供了一种后门攻击的防 御方法和系统, 方法包括: 获取触发器以及 目标 标签; 基于触发器及目标标签对后门模型进行遗 忘训练, 以获得能够防御后门攻击的目标模型。 可以实现有效地防御攻击者对于模型的后门攻 击。 权利要求书4页 说明书17页 附图8页 CN 113792289 B 2022.03.25 CN 113792289 B 1.一种后门攻击的防御方法, 其包括: 基于后门模型生成与其真实触发器对应的一个或多个重建触发器, 并确定目标标签; 所述真实触发器使得, 当后门模型 的输入数据包含所述真实触发器时, 所述后门模型输出 所述目标 标签; 基于一个或多个重建触发器及所述目标标签对所述后门模型进行遗忘训练, 以获得能 够防御后门攻击的目标模型; 所述基于一个或多个重建触发器及所述目标标签对所述后门 模型进行遗 忘训练包括: 将一个或多个重建触发器添加到 干净样本中, 得到后门样本; 利用所述后门模型处 理所述后门样本, 得到第一预测标签; 调整所述后门模型的模型参数, 至少使得所述第 一预测标签与 所述目标标签的差异增 加。 2.如权利要求1所述的方法, 所述调整所述后门模型的模型参数, 至少使得所述第 一预 测标签与所述目标 标签的差异增 加, 包括: 基于所述第一预测标签与所述目标 标签的差异确定各模型参数对应的第一梯度; 在各模型参数 上增加对应的第一梯度。 3.如权利要求1所述的方法, 所述基于一个或多个重建触发器及所述目标标签对所述 后门模型进行遗 忘训练, 还 包括: 利用所述后门模型处 理干净样本, 得到第二预测标签; 调整所述后门模型的模型参数, 使得所述第 二预测标签与所述干净样本对应的标签的 差异减小。 4.如权利要求1所述的方法, 所述基于一个或多个重建触发器及所述目标标签对所述 后门模型进行遗 忘训练, 还 包括: 确定所述后门模型的各模型参数对于 干净样本的预测权 重; 对各模型参数的调整幅度与对应的预测权 重负相关。 5.如权利要求4所述的方法, 所述预测权重与模型参数对应的第二梯度的绝对值正相 关, 模型参数对应的第二梯度为第二预测标签与干净样本对应的标签的差异相对该模型参 数的梯度。 6.如权利要求1所述的方法, 所述基于一个或多个重建触发器及所述目标标签对所述 后门模型进行遗 忘训练, 还 包括: 利用所述后门模型处 理干净样本, 得到第二预测标签; 基于第一目标函数调整所述后门模型的模型参数, 以使得 所述第一目标函数减小; 所述第一目标函数与第 一损失函数负相关、 与第 二损失函数正相关以及与第 一约束项 正相关; 其中, 第一损失函数反映第一预测标签与目标标签的差异, 第二损失函数反映第二 预测标签与干净样本对应的标签的差异, 第一约束项反映各模型参数差异基于其分别对应 的预测权重进 行加权求和的结果, 所述模型参数差异为当前某模型参数与其原模型参数的 差异, 所述预测权重与模型参数对应的第二梯度的绝对值正相关, 模型参数对应的第二梯 度为第二预测标签与干净样本对应的标签的差异相对该模型参数的梯度。 7.如权利要求1所述的方法, 基于后门模型生成与其真实触发器对应的一个或多个重 建触发器, 并确定目标 标签, 包括, 针对所述后门模型的标签空间中的某一标签:权 利 要 求 书 1/4 页 2 CN 113792289 B 2获得触发器生成模型组, 并基于其获取候选触发器; 将候选触发器添加到多个干净样本中, 得到多个中毒样本; 利用所述后门模型处理多个中毒样本, 以获取攻击成功率; 攻击成功率反映包含候选 触发器的中毒样本使得 所述后门模型输出 该标签的概 率; 当攻击成功率大于第一阈值时, 将该标签作为所述目标标签, 将所述候选触发器作为 重建触发器。 8.如权利要求7所述的方法, 所述触发器生成模型组包括多个生成器, 其中, 生成器用 于基于噪声数据生成触发器, 不同生成器对应不同的攻击成功率预设值。 9.如权利要求8所述的方法, 针对所述后门模型的标签空间中的某一标签, 获得触发器 生成模型组, 包括对于所述触发器生成模型组中的某一 生成器: 生成第一噪声数据; 通过该生成器处 理第一噪声数据, 得到预估触发器; 将预估触发器添加到 干净样本中, 得到中毒样本; 利用所述后门模型处 理中毒样本, 得到针对所述某一标签的预测概 率; 当所述预测概率小于该生成器对应的攻击成功率预设值 时, 调整所述生成器的模型参 数, 以减小所述预测概 率与该攻击成功率预设值的差异。 10.如权利要求9所述的方法, 针对所述后门模型的标签空间中的某一标签, 获得触发 器生成模型组, 还 包括对于所述某一 生成器: 生成与所述第一噪声数据同分布的第二噪声数据; 通过与该生成器对应的互信息估计器获得所述预估触发器对应的反推噪声数据与第 二噪声数据的互信息; 调整所述 生成器的模型参数, 以增 加所述互信息 。 11.一种后门攻击的防御系统, 包括: 重建触发器获取模块, 用于基于后门模型生成与其真实触发器对应的一个或多个重建 触发器, 并确定目标标签; 所述真实触发器使得, 当后门模型的输入 数据包含所述真实触发 器时, 所述后门模型输出 所述目标 标签; 第一后门模型防御模块, 用于基于一个或多个重建触发器及所述目标标签对所述后门 模型进行遗忘训练, 以获得能够防御后门攻击的目标模型; 所述基于一个或多个重建触发 器及所述目标 标签对所述后门模型进行遗 忘训练包括: 将一个或多个重建触发器添加到 干净样本中, 得到后门样本; 利用所述后门模型处 理所述后门样本, 得到第一预测标签; 调整所述后门模型的模型参数, 至少使得所述第 一预测标签与 所述目标标签的差异增 加。 12.一种后门攻击的防御装置, 包括至少一个存储介质和至少一个处理器, 所述至少一 个存储介质用于存储计算机指 令; 所述至少一个处理器用于执行所述计算机指 令以实现如 权利要求1 ‑10中任一项权利要求所述的后门攻击的防御方法。 13.一种后门攻击的防御方法, 其包括: 获取后门模型的触发器, 以及目标标签; 所述触发器使得, 当后门模型的输入数据包含 所述触发器时, 所述后门模型输出 所述目标 标签;权 利 要 求 书 2/4 页 3 CN 113792289 B 3

.PDF文档 专利 一种后门攻击的防御方法和系统

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种后门攻击的防御方法和系统 第 1 页 专利 一种后门攻击的防御方法和系统 第 2 页 专利 一种后门攻击的防御方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 18:58:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。