行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211026518.3 (22)申请日 2022.08.25 (71)申请人 北京云真信科技有限公司 地址 100080 北京市海淀区海淀北二 街8号 8层911 (72)发明人 张静雅 张波  (74)专利代理 机构 北京锺维联合知识产权代理 有限公司 1 1579 专利代理师 原春香 (51)Int.Cl. H04L 9/06(2006.01) H04L 9/08(2006.01) (54)发明名称 一种获取最终用户ID的数据处 理系统 (57)摘要 本发明提供了一种获取最终用户ID的数据 处理系统, 所述系统包括数据库、 处理器和存储 有计算机程序的存储器, 存储器中存储有哈希函 数列表, 当处理器执行一段计算机程序时, 执行 如下步骤: 获取原始用户ID列表; 将原始用户ID 通过哈希函数列表生成对应的第一中间哈希值 列表; 基于第一中间哈希值, 将布隆过滤器对应 的点位变成 “1”; 获取目标用户ID列表; 将目标用 户ID通过哈希函数列表生成对应的第二中间哈 希值列表; 当对应布隆过滤器的点位均为 “1”时, 标记为最终用户ID; 使得在数据的存储占用空间 更小, 匹配的效率更高。 权利要求书1页 说明书4页 附图1页 CN 115378577 A 2022.11.22 CN 115378577 A 1.一种获取最终用户ID的数据处理系统, 其特征在于, 所述系统包括数据库、 处理器和 存储有计算机程序的存储器, 存储器中存储有哈希函数列表B={B1,…, Bj,…, Bn}, Bj是指 哈希函数列表中第j个哈希函数, j的取值范围是1到n, n是指哈希函数的数量; 其中, Bj≠ Bj+1; 当处理器执行一段计算机程序时, 执 行如下步骤: S100, 获取原始用户ID列表E={E1,…, Eg,…, Ez}, Eg是指第g个用户ID, g的取值范围是1 到z, z是原始用户ID的数量; S200, 将E通过哈希函数列表B生成对应的第一中间哈希值列表E ′={E′1,…, E′g,…, E′z}, E′g={E′g1,…, E′gj,…, E′gn}, E′gj是指Eg通过Bj生成的哈希值; S300, 基于E′, 将布隆过 滤器对应的点 位变成“1”; S400, 获取目标用户ID列表A={A1,…, Ai,…, Am}, Ai是指目标用户ID列表中第 i个用户 ID, i的取值范围是1到m, m是指目标用户ID的数量; S500, 将A通过哈希函数列表B生成对应的第二中间哈希值列表A ′={A′1,…, A′i,…, A′m}, A′i={Ai1,…, A′ij,…, A′in}, A′ij是指Eg通过Bj生成的哈希值; S600, 当A ′i对应布隆过滤器的点位均为 “1”时, 将Ai标记为最终用户ID并基于A ′获取最 终用户ID列表。 2.根据权利要求1所述的获取最终用户ID的数据处理系统, 其特征在于, 获取布隆过滤 器的长度L。 3.根据权利要求2所述的获取最终用户ID的数据处 理系统, 其特 征在于, L>m。 4.根据权利要求2所述的获取最终用户ID的数据处 理系统, 其特 征在于, L>z 。 5.根据权利要求2所述的获取最终用户ID的数据处理系统, 其特征在于, 获取误差率P, P=e‑L*(ln2)2/z。 6.根据权利要求5所述的获取最终用户ID的数据处 理系统, 其特 征在于, P≤ 5%。 7.根据权利要求6所述的获取最终用户ID的数据处 理系统, 其特 征在于, P≤ 3%。 8.根据权利要求2所述的获取最终用户ID的数据处理系统, 其特征在于, 布隆过滤器的 长度L、 哈希函数的数量 n、 原始用户ID的数量z满足下述条件: n =L*ln2/z。 9.根据权利要求1所述的获取最终用户ID的数据处理系统, 其特征在于, 所述原始用户 ID用于表征原 始用户身份的唯一标识。 10.根据权利要求1所述的获取最终用户ID的数据处理系统, 其特征在于, 所述目标用 户ID用于表征目标用户身份的唯一标识。权 利 要 求 书 1/1 页 2 CN 115378577 A 2一种获取最终用户ID的数据处理系统 技术领域 [0001]本发明涉及数据处 理领域, 特别是 涉及一种获取最终用户ID的数据处 理系统。 背景技术 [0002]联邦学习是一种新兴的人工智能基础技术, 其目的是在保障大数据交换时的信息 安全、 保护终端数据和个人数据隐私, 在多参与方或多计算结点之间展开高效率的机器学 习。 联邦学习系统架构由加密样本对齐、 加密模型训练、 效果激励三部分组成, 加密样本对 齐是指数据拥有方在不公开各自数据的前提下确定双方的共有用户, 并且不暴露不互相重 叠的用户。 在现有技术中, 完成加密样本对齐可以采用基于Bind  RSA和哈希算法的解决方 案、 基于Diffie ‑Hellman的方案、 基于OT和OPRF的实现等各种实现方案, 但现有技术的实现 对于数据量较大的样本处 理效率比较低, 占用的内存空间大。 发明内容 [0003]针对上述 技术问题, 本发明采用的技 术方案为: [0004]一种获取最终用户ID的数据处理系统, 系统包括数据库、 处理器和存储有计算机 程序的存储器, 存储器中存储有哈希函数列表B={B1,…, Bj,…, Bn}, Bj是指哈希函数列表 中第j个哈希函数, j的取值范围是1到n, n是指哈希函数的数量; 其中, Bj≠Bj+1; 当处理器执 行一段计算机程序时, 执 行如下步骤: [0005]S100, 获取原始用户ID列表E={ E1,…, Eg,…, Ez}, Eg是指第g个用户ID, g的取值范 围是1到z, z是原始用户ID的数量; [0006]S200, 将E通过哈希函数列表B生成对应的第一中间哈希值列表E ′={E′1,…, E ′g,…, E′z}, E′g={E′g1,…, E′gj,…, E′gn}, E′gj是指Eg通过Bj生成的哈希值; [0007]S300, 基于E′, 将布隆过 滤器对应的点 位变成“1”; [0008]S400, 获取目标用户ID列表A={A1,…, Ai,…, Am}, Ai是指目标用户ID列表中第i个 用户ID, i的取值范围是1到m, m是指目标用户ID的数量; [0009]S500, 将A通过哈希函数列表B生成对应的第二中间哈希值列表A ′={A′1,…, A ′i,…, A′m}, A′i={A′i1,…, A′ij,…, A′in}, A′ij是指Eg通过Bj生成的哈希值; [0010]S600, 当A ′i对应布隆过滤器的点位均为 “1”时, 将Ai标记为最终用户ID并基于A ′获 取最终用户ID列表。 [0011]本发明至少具有以下有益效果: [0012]最终用户ID是指两个数据提供方中的相同的用户ID, 同时在原始用户ID在进行完 哈希函数后生成的哈希值映射到布隆过滤器, 目标用户ID在经过哈希函数后第二中间哈希 值和布隆过滤器中进行匹配, 当第二中间哈希值对应布隆过滤器的点位均为 “1”时, 将Ai标 记为最终用户ID; 本发明在不公开数据提供方的其它的数据的情况下, 找到两个数据提供 方的共有用户ID, 且使用哈希 函数生成哈希值的方法, 使得在数据的存储占用空间更小, 同 时使用布隆过滤器, 将哈希值映射到布隆过滤器中, 使得在目标用户和原始用户匹配过程说 明 书 1/4 页 3 CN 115378577 A 3

.PDF文档 专利 一种获取最终用户ID的数据处理系统

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种获取最终用户ID的数据处理系统 第 1 页 专利 一种获取最终用户ID的数据处理系统 第 2 页 专利 一种获取最终用户ID的数据处理系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 04:06:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。