行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210054385.4 (22)申请日 2022.01.18 (71)申请人 政采云有限公司 地址 310000 浙江省杭州市西湖区转塘科 技经济区块9号1幢2区5楼 (72)发明人 沈晨辉  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 代理人 刘珂 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/23(2019.01) G06F 16/27(2019.01) G06F 16/28(2019.01) (54)发明名称 一种重复数据处 理的方法、 装置及 介质 (57)摘要 本发明公开了一种重复数据处理的方法、 装 置及介质, 适用于数据处理领域。 接收变更数据 的请求并获取请求的多个重复数据; 将多个重复 数据存入至缓存中过滤并获取得到最终数据; 将 最终数据存入至搜索中间件的索引中以完成索 引更新。 该方法通过将重复数据存入至缓存中进 行过滤得到最终数据, 以此将最终数据存入至搜 索中间件, 减少重复数据对搜索中间件的过多数 据吞吐量, 对瞬时大量的数据起到缓冲作用。 同 时避免增加额外的固定资源费用, 仅在有限的资 源下提高搜索中间件的数据处 理量。 权利要求书1页 说明书8页 附图2页 CN 114398405 A 2022.04.26 CN 114398405 A 1.一种重复数据处 理的方法, 其特 征在于, 包括: 接收变更 数据的请求; 获取所述请求的多个重复数据; 将多个所述重复数据存 入至缓存中过 滤并获取 得到最终数据; 将所述最终数据存 入至搜索中间件的索引中以完成索引更新。 2.根据权利要求1所述的重复数据处理 的方法, 其特征在于, 所述将多个所述重复数据 存入至缓存中过 滤并获取 得到最终数据, 包括: 将多个所述重复数据存 入至所述缓存内的过 滤缓存中并过 滤得到过滤数据; 将所述过 滤数据存入至所述缓存内的执 行缓存中; 根据所述过 滤数据获取表单 数据作为所述 最终数据。 3.根据权利要求2所述的重复数据处理 的方法, 其特征在于, 将多个所述重复数据 过滤 得到所述过 滤数据, 包括: 将多个所述重复数据根据哈希桶算法过 滤得到所述过 滤数据。 4.根据权利要求2所述的重复数据处理 的方法, 其特征在于, 将多个所述重复数据 过滤 得到所述过 滤数据, 包括: 将多个所述重复数据根据ID数据过 滤得到所述过 滤数据。 5.根据权利要求1所述的重复数据处理 的方法, 其特征在于, 在所述接收变更数据的请 求之前, 还 包括: 根据数据同步工具监听数据库的所述变更 数据; 当监听到所述变更 数据时, 则发送所述变更 数据的请求至所述缓存。 6.根据权利要求2所述的重复数据处理 的方法, 其特征在于, 将多个所述重复数据 过滤 得到所述过 滤数据, 包括: 根据过滤的时间 间隔将多个所述重复数据过 滤得到所述过 滤数据。 7.根据权利要求1至 6任意一项所述的重复数据处 理的方法, 其特 征在于, 还 包括: 当所述最终数据存 入至所述搜索中间件的索引时, 输出提 示信息。 8.一种重复数据处 理的装置, 其特 征在于, 包括: 接收模块, 用于 接收变更 数据的请求; 第一获取模块, 用于获取 所述请求的多个重复数据; 第二获取模块, 用于将多个所述重复数据存 入至缓存中过 滤并获取 得到最终数据; 存入模块, 用于将所述 最终数据存 入至搜索中间件的索引中以完成索引更新。 9.一种重复数据处 理的装置, 其特 征在于, 包括: 存储器, 用于存 储计算机程序; 处理器, 用于执行所述计算机程序时实现如权利要求1至7任一项所述的重复数据处理 的方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至7任一项 所述的重复数据处理的 方法的步骤。权 利 要 求 书 1/1 页 2 CN 114398405 A 2一种重复数据处理的方 法、 装置及介质 技术领域 [0001]本发明涉及数据处 理领域, 特别是 涉及一种重复数据处 理的方法、 装置及 介质。 背景技术 [0002]在数据库 中, 通过多种不 同的信息来查询相关的数据, 在大数据量高并发的场景 下, 数据量较大, 整个查询速度会很慢, 需要通过搜索中间件(Elastic  Search, ES)来完成 查询。 以订单数据 做列表页的查询为例, 在数据变更的通知中, 搜索中间件会根据身份标识 (Identity document, ID)数据获取订单单据数据, 由于数据库中的数据为关联数据, 一个 单据数据包含了订单数据和多个审核记录数据, 此时搜索中间件对订单的ID数据处理多 次。 在处理过程中, 会存在很多 无效的重复的数据在搜索中间件处理, 而实际只需要处理一 次数据即可。 [0003]通常情况下, 数据会频繁 的同步, 会产生大量的重复单据数据在瞬时区间内频繁 的写入搜索中间件, 导致搜索中间件的中央处理器(Central  Processing  Unit, CPU)无效 的重复运算而飙升, 其造成了性能瓶颈, 目前采用扩容搜索中间件来解决技术问题, 一台机 器的吞吐量有限, 针对多个请求的重复数据在有限的时间同时处理使得CPU饱和甚至宕机, 因此需要增 加多台机器处 理大量无效重复数据, 但会导 致固定资源的费用增 加。 [0004]因此, 寻找一种重复数据处 理的方法是本领域 技术人员亟需要解决的。 发明内容 [0005]本发明的目的是提供一种重复数据处理的方法、 装置及介质, 在有限的资源下提 高搜索中间件的数据处 理量。 [0006]为解决上述 技术问题, 本发明提供一种重复数据处 理的方法, 包括: [0007]接收变更 数据的请求; [0008]获取请求的多个重复数据; [0009]将多个重复数据存 入至缓存中过 滤并获取 得到最终数据; [0010]将最终数据存 入至搜索中间件的索引中以完成索引更新。 [0011]优选地, 将多个重复数据存 入至缓存中过 滤并获取 得到最终数据, 包括: [0012]将多个重复数据存 入至缓存内的过 滤缓存中并过 滤得到过滤数据; [0013]将过滤数据存入至缓存内的执 行缓存中; [0014]根据过滤数据获取表单 数据作为 最终数据。 [0015]优选地, 将多个重复数据过 滤得到过滤数据, 包括: [0016]将多个重复数据根据哈希桶算法过 滤得到过滤数据。 [0017]优选地, 将多个重复数据过 滤得到过滤数据, 包括: [0018]将多个重复数据根据ID数据过 滤得到过滤数据。 [0019]优选地, 在接收变更 数据的请求之前, 还 包括: [0020]根据数据同步工具监听数据库的变更 数据;说 明 书 1/8 页 3 CN 114398405 A 3

.PDF文档 专利 一种重复数据处理的方法、装置及介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种重复数据处理的方法、装置及介质 第 1 页 专利 一种重复数据处理的方法、装置及介质 第 2 页 专利 一种重复数据处理的方法、装置及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:17:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。