行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211197956.6 (22)申请日 2022.09.29 (71)申请人 杭州中电安科现代科技有限公司 地址 310051 浙江省杭州市萧 山区经济技 术开发区明星路371号1幢817-7 (72)发明人 迟鹏飞 彭义 武方 苗维杰  (74)专利代理 机构 北京锺维联合知识产权代理 有限公司 1 1579 专利代理师 安娜 (51)Int.Cl. G06F 16/18(2019.01) G06F 16/22(2019.01) (54)发明名称 一种日志范化的数据处 理系统 (57)摘要 本发明提供了一种日志范化的数据处理系 统, 包括: 数据库、 处理器和存储有计算机程序的 存储器, 所述数据库中存储有第一数据列表, 以 及第二数据列表, 获取目标设备对应的目标日志 和目标日志对应的目标设备ID, 基于第一数据列 表和第二数据列表, 获取第一解析数据列表, 基 于第一解析数据列表, 获取最终键值对列表。 本 发明减少了匹配时间, 提高整体效率。 权利要求书2页 说明书5页 附图2页 CN 115543950 A 2022.12.30 CN 115543950 A 1.一种日志范化的数据处理系统, 其特征在于, 所述系统包括数据库、 处理器和存储有 计算机程序 的存储器, 所述数据库中存储有第一数据列表A={A1, A2,…, Ai,…, Am}, Ai= (DMi, REi, KVi), KVi={KVi1,…, KVij,…, KVin}, 以及第二数据列表B={B1, B2,…, Bi,…, Bm}, Bi=(Hi, DMi), 其中, DMi是指第i个第一设备标识, REi是指DMi对应的中间数据提取文本列 表, Kij是指DMi对应的第j个目标数据键值对, Hi为DMi对应的初始设备ID列表, i的取值范围 是1到m, m是指第一设备标识数量, j的取值范围是1到n, n是指Ai对应的目标数据键值对数 量, 当处理器执行一段计算机程序, 执 行如下步骤: S1, 获取目标设备对应的目标日志和目标日志对应的目标设备ID, 其中, 目标日志β = ( β1, β2,…, βγ,…, βγ′), βγ是指目标日志对应的第γ个字符, γ的取值范围是1到γ, γ ′是 目标日志对应的字符数量; S2, 基于第二数据列表, 获取目标设备ID对应的DMi; S3, 基于第一数据列 表, 获取DMi对应的中间数据提取文本REi={REi1,…, REij,…, REin} 和目标数据键值对列表KVi={KVi1,…, KVij,…, KVin}; S4, 基于REi对目标日志进行解析, 获取第一解析数据列表V ′i={V′i1,…, V′ij,…, V ′in}, V′ij是指目标日志中RE对应的数据; S5, 基于V ′i对KVi进行匹配, 获取最终键值对列表KV ′i={KV′i1,…, KV′ij,…, KV′in}。 2.根据权利要求1所述的系统, 其特 征在于, 在S1后通过如下步骤获取目标ID: S101, 当Hi1为数字时, 基于Hi1对β 依次进行遍历, 其中, Hi=(Hi1, Hi2,…, Hiα,…, Hiα′), Hiα 是指Hi对应的第α 个字符, α 的取值范围是1到α ′, α′是指Hi对应的字符数量。 S102, 当βγ为数字时, 判断Hi1是否等于βγ。 S103, 当存在Hi1=βγ且Hiα=βγ+α‑1时, 将Hi作为目标ID。 S104, 当Hi1不是数字且Hiα′是数字时, 基于 Hiα′对β 依次进行遍历。 S105, 当βγ为数字时, 执 行S106。 S106, 当存在Hi1=βγ时, 当Hiα=βγ‑α +1时, 将Hi作为目标ID。 S107, 当Hi1不是数字且Hiα′不是数字时, 基于 Hi1对β 依次进行遍历, 获取目标ID。 3.根据权利要求2 所述的系统, 其特征在于, 当Hi1不是数字且Hiα′不是数字时, 执行如下 步骤: S1071, 获取固定分隔符列表C={C1, C2,…, Cg,…, Cz}, Cg是指第g个固定分隔符, g的取 值范围是1到 z, z是指固定分隔符的数量; S1072, 将目标日志按照固定分隔符列表C进行分割, 获取目标分割区域列表D={D1, D2,…, Dx,…, Dq}, Dx是指目标日志按照C进行分割后的第x个目标分割区域, x的取值范围是 1到q, q是指目标分割区域的数量; S1073, 获取目标分割区域字符串数量列表Q={Q1, Q2,…, Qx,…, Qq}, Qx是指Dx对应的目 标分割区域的字符串数量; S1074, 获取指定分割区域列表D ′={D′1, D′2,…, D′y,…, D′p}和指定分割区域字符串数 量列表Q′={Q′1, Q′2,…, Q′y,…, Q′p}, 其中, Q ′y≥Q(Hr), D′y是指第y个指定分割区域, Q ′y是 指D′y对应的字符串数量, y的取值范围是1到p, p为指定分割区域的数量; S1075, 获取第二匹配次数Sum2=∑p y=1[Q′y‑Q(Hr)+1]; S1076, 获取目标日志的字符数量Q且获取第一匹配次数Sum1=Q‑Q(Hr), 其中, 第一匹配权 利 要 求 书 1/2 页 2 CN 115543950 A 2次数是指基于S107进行遍历的次数; S1077, 当Sum2<Sum1时, 基于Hr遍历D′y, 获取目标ID。 4.根据权利要求3所述的系统, 其特 征在于, z <20。 5.根据权利要求 4所述的系统, 其特 征在于, z= 4。 6.根据权利要求1所述的系统, 其特 征在于, 目标设备ID是目标设备的唯一标识。 7.根据权利要求1所述的系统, 其特 征在于, 所述系统包括如下步骤: S10, 获取第二目标日志和第二目标日志对应的第二目标DM; S20, 当DMi满足预设处 理条件时, 执 行S40; S30, 当DMi不满足预设处 理条件时, 否则执 行S60; S40, 当存在DMi等于第二目标DM时, 获取DMi对应的REi作为第二目标RE列表; S50, 当任意DMi不等于第二目标DM, 执 行S60; S60, 基于第一数据列表, 获取中间数据提取文本列表RE={RE1, RE2,…, REi,…, REm}, REi={REi1, REi2,…, REit,…, REik}, REit是指第i个RE列表中第t个中间数据提取文本, t的取 值范围是1到k, k是指REi中指定文本的数量; S70, 基于REi对第二目标日志进行解析, 获取目标解析数据列表Di={Di1, Di2,…, Dit,…, Dik}, Dit是指REit对应的目标解析 数据; S80, 获取空集数量列表E={E1, E2,…, Ei,…, Em}, Ei是指遍历 Di, Dit=null的数量; S90, 获取最小空集数量E ′, E′=min(E1, E2,…, Ei,…, Em); S91, 获取E ′对应的RE ′且将REv作为第二目标 数据提取文本列表。 8.根据权利要求7 所述的系统, 其特 征在于, E0<0.2*k。 9.根据权利要求8所述的系统, 其特 征在于, E0<0.1*k。 10.根据权利要求7所述的系统, 其特征在于, 所述DMi满足预设处理条件是指DMi经过 MD5化处理。权 利 要 求 书 2/2 页 3 CN 115543950 A 3

.PDF文档 专利 一种日志范化的数据处理系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种日志范化的数据处理系统 第 1 页 专利 一种日志范化的数据处理系统 第 2 页 专利 一种日志范化的数据处理系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:33:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。