专利联邦学习方法和装置、系统、电子设备、计算机可读介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111613130.9 (22)申请日 2021.12.27 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人刘吉　马北辰　周晨娣　周景博　周瑞璞　窦德景　 (74)专利代理机构北京英赛嘉华知识产权代理有限责任公司 1 1204 代理人王达佐　马晓亚 (51)Int.Cl. G06N 20/00(2019.01) G06N 3/08(2006.01) G06F 9/48(2006.01) (54)发明名称联邦学习方法和装置、系统、电子设备、计算机可读介质 (57)摘要本公开提供了一种联邦学习方法和装置，涉及大数据、深度学习等技术领域。具体实现方案为：针对同一时间训练的多个不同任务中的各任务，产生该任务的全局模型；接收当前可用终端集合中各个可用终端的资源信息；基于资源信息、全局模型，从当前可用终端集合中选择该任务对应的目标终端；通过目标终端对全局模型进行训练，直至该任务训练后的全局模型满足预设条件为止。该实施方式提高了联邦学习的效率。权利要求书3页说明书12页附图5页 CN 114298322 A 2022.04.08 CN 114298322 A 1.一种联邦学习方法，所述方法包括：针对同一时间训练的多个不同任务中的各任务，产生该任务的全局模型；接收当前可用终端集合中各个可用终端的资源信息；基于所述资源信息、所述全局模型，从当前可用终端集合中选择该任务对应的目标终端；通过所述目标终端对所述全局模型进行训练，直至该任务训练后的全局模型满足预设条件为止。 2.根据权利要求1所述的方法，其中，所述通过所述目标终端对所述全局模型进行训练，直至该任务训练后的全局模型满足预设条件为止，包括：将所述全局模型下发至所述目标终端，以使所述目标终端对所述全局模型进行本地训练，得到模型参数；接收所述目标终端返回的模型参数，对所述模型参数进行聚合，得到更新后的全局模型；响应于更新后的全局模型满足预设条件，确定该任务训练后的全局模型满足预设条件。 3.根据权利要求2所述的方法，所述方法还包括：响应于更新后的全局模型不满足预设条件，采用更新后的全局模型替换所述全局模型，继续接收当前可用终端集合中各个可用终端的资源信息，基于所述资源信息、所述全局模型，从当前可用终端集合中选择该任务对应的目标终端；将所述全局模型下发至所述目标终端，接收所述目标终端返回的模型参数，对所述模型参数进行聚合，得到更新后的全局模型，直至更新后的全局模型满足预设条件为止。 4.根据权利要求1所述的方法，其中，所述基于所述资源信息、所述全局模型，从当前可用终端集合中选择该任务对应的目标终端，包括：将当前可用终端集合、当前可用终端集合的资源信息、所述全局模型的参数输入预先训练完成的深度学习模型，得到所述深度学习模型输出的、该任务对应的目标终端信息，所述目标终端信息用于表征当前可用终端集合中各个可用终端可被调用的概率；其中，所述深度学习模型用于表征全局模型的参数、可用终端集合、可用终端集合中各个可用终端的资源信息三者与目标终端信息之间对应关系；基于所述目标终端信息，从当前可用终端集合中选择该任务对应的目标终端。 5.根据权利要求 4所述的方法，所述深度学习模型采用如下训练步骤训练得到：获取多个任务对应的样本终端以及各个样本终端的资源信息；将多个任务中各个任务在各轮迭代训练时对应的样本终端、各个样本终端的资源信息、全局模型的参数输入预先构建的深度学习网络，得到所述深度学习网络输出的目标终端信息；响应于所述深度学习网络的损失函数的损失值达到预设的损失值，得到深度学习模型。 6.根据权利要求5所述的方法，其中，所述深度学习网络的损失函数包括：时间损失函数和数据公平性损失函数；所述时间损失函数用于表征该任务对应的全局模型每轮迭代训练时调用的终端的执权　利　要　求　书 1/3 页 2 CN 114298322 A 2行时间长短的损失；所述数据公平性损失函数用于表征该任务对应的全局模型每轮迭代训练时调用的终端的频率的方差的损失。 7.一种联邦学习装置，所述装置包括：产生单元，被配置成针对同一时间训练的多个不同任务中的各任务，产生该任务的全局模型；接收单元，被配置成接收当前可用终端集合中各个可用终端的资源信息；选择单元，被配置成基于所述资源信息、所述全局模型，从当前可用终端集合中选择该任务对应的目标终端；训练单元，被配置成通过所述目标终端对所述全局模型进行训练，直至该任务训练后的全局模型满足预设条件为止。 8.根据权利要求7 所述的装置，其中，所述训练单元包括：下发模块，被配置成将所述全局模型下发至所述目标终端，以使所述目标终端对所述全局模型进行本地训练，得到模型参数；接收模块，被配置成接收所述目标终端返回的模型参数，对所述模型参数进行聚合，得到更新后的全局模型；确定模块，被配置成响应于更新后的全局模型满足预设条件，确定该任务训练后的全局模型满足预设条件。 9.根据权利要求8所述的装置，所述训练单元还包括：替换模块，被配置成响应于更新后的全局模型不满足预设条件，采用更新后的全局模型替换所述全局模型，继续触发接收单元、选择单元、下发模块、接收模块、确定模块的工作。 10.根据权利要求7 所述的装置，其中，所述选择单元包括：输入模块，被配置成将当前可用终端集合、当前可用终端集合的资源信息、所述全局模型的参数输入预先训练完成的深度学习模型，得到所述深度学习模型输出的、该任务对应的目标终端信息，所述目标终端信息用于表征当前可用终端集合中各个可用终端可被调用的概率；其中，所述深度学习模型用于表征全局模型的参数、可用终端集合、可用终端集合中各个可用终端的资源信息三者与目标终端信息之间对应关系；选择模块，被配置成基于所述目标终端信息，从当前可用终端集合中选择该任务对应的目标终端。 11.根据权利要求10所述的装置，所述深度学习模块采用如下单元训练得到：获取单元，被配置成获取多个任务对应的样本终端以及各个样本终端的资源信息；输出单元，被配置成将多个任务中各个任务在各轮迭代训练时对应的样本终端、各个样本终端的资源信息输入预先构建的深度学习网络，得到所述深度学习网络输出的目标终端信息；得到单元，被配置成响应于所述深度学习网络的损失函数的损失值达到预设的损失值，得到深度学习模型。 12.根据权利要求11所述的装置，其中，所述深度学习网络的损失函数包括时间损失函数和数据公平性损失函数；权　利　要　求　书 2/3 页 3 CN 114298322 A 3

专利 联邦学习方法和装置、系统、电子设备、计算机可读介质

专利联邦学习方法和装置、系统、电子设备、计算机可读介质