专利 一种日志范化的数据处理系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211197956.6 (22)申请日 2022.09.29 (71)申请人杭州中电安科现代科技有限公司地址 310051 浙江省杭州市萧山区经济技术开发区明星路371号1幢817-7 (72)发明人迟鹏飞　彭义　武方　苗维杰　 (74)专利代理机构北京锺维联合知识产权代理有限公司 1 1579 专利代理师安娜 (51)Int.Cl. G06F 16/18(2019.01) G06F 16/22(2019.01) (54)发明名称一种日志范化的数据处理系统 (57)摘要本发明提供了一种日志范化的数据处理系统，包括：数据库、处理器和存储有计算机程序的存储器，所述数据库中存储有第一数据列表，以及第二数据列表，获取目标设备对应的目标日志和目标日志对应的目标设备ID，基于第一数据列表和第二数据列表，获取第一解析数据列表，基于第一解析数据列表，获取最终键值对列表。本发明减少了匹配时间，提高整体效率。权利要求书2页说明书5页附图2页 CN 115543950 A 2022.12.30 CN 115543950 A 1.一种日志范化的数据处理系统，其特征在于，所述系统包括数据库、处理器和存储有计算机程序的存储器，所述数据库中存储有第一数据列表A＝{A1， A2，…， Ai，…， Am}， Ai＝ (DMi， REi， KVi)， KVi＝{KVi1，…， KVij，…， KVin}，以及第二数据列表B＝{B1， B2，…， Bi，…， Bm}， Bi＝(Hi， DMi)，其中， DMi是指第i个第一设备标识， REi是指DMi对应的中间数据提取文本列表， Kij是指DMi对应的第j个目标数据键值对， Hi为DMi对应的初始设备ID列表， i的取值范围是1到m， m是指第一设备标识数量， j的取值范围是1到n， n是指Ai对应的目标数据键值对数量，当处理器执行一段计算机程序，执行如下步骤： S1，获取目标设备对应的目标日志和目标日志对应的目标设备ID，其中，目标日志β ＝ ( β1， β2，…， βγ，…， βγ′)， βγ是指目标日志对应的第γ个字符， γ的取值范围是1到γ， γ ′是目标日志对应的字符数量； S2，基于第二数据列表，获取目标设备ID对应的DMi； S3，基于第一数据列表，获取DMi对应的中间数据提取文本REi＝{REi1，…， REij，…， REin} 和目标数据键值对列表KVi＝{KVi1，…， KVij，…， KVin}； S4，基于REi对目标日志进行解析，获取第一解析数据列表V ′i＝{V′i1，…， V′ij，…， V ′in}， V′ij是指目标日志中RE对应的数据； S5，基于V ′i对KVi进行匹配，获取最终键值对列表KV ′i＝{KV′i1，…， KV′ij，…， KV′in}。 2.根据权利要求1所述的系统，其特征在于，在S1后通过如下步骤获取目标ID： S101，当Hi1为数字时，基于Hi1对β 依次进行遍历，其中， Hi＝(Hi1， Hi2，…， Hiα，…， Hiα′)， Hiα 是指Hi对应的第α 个字符， α 的取值范围是1到α ′， α′是指Hi对应的字符数量。 S102，当βγ为数字时，判断Hi1是否等于βγ。 S103，当存在Hi1＝βγ且Hiα＝βγ+α‑1时，将Hi作为目标ID。 S104，当Hi1不是数字且Hiα′是数字时，基于 Hiα′对β 依次进行遍历。 S105，当βγ为数字时，执行S106。 S106，当存在Hi1＝βγ时，当Hiα＝βγ‑α +1时，将Hi作为目标ID。 S107，当Hi1不是数字且Hiα′不是数字时，基于 Hi1对β 依次进行遍历，获取目标ID。 3.根据权利要求2 所述的系统，其特征在于，当Hi1不是数字且Hiα′不是数字时，执行如下步骤： S1071，获取固定分隔符列表C＝{C1， C2，…， Cg，…， Cz}， Cg是指第g个固定分隔符， g的取值范围是1到 z， z是指固定分隔符的数量； S1072，将目标日志按照固定分隔符列表C进行分割，获取目标分割区域列表D＝{D1， D2，…， Dx，…， Dq}， Dx是指目标日志按照C进行分割后的第x个目标分割区域， x的取值范围是 1到q， q是指目标分割区域的数量； S1073，获取目标分割区域字符串数量列表Q＝{Q1， Q2，…， Qx，…， Qq}， Qx是指Dx对应的目标分割区域的字符串数量； S1074，获取指定分割区域列表D ′＝{D′1， D′2，…， D′y，…， D′p}和指定分割区域字符串数量列表Q′＝{Q′1， Q′2，…， Q′y，…， Q′p}，其中， Q ′y≥Q(Hr)， D′y是指第y个指定分割区域， Q ′y是指D′y对应的字符串数量， y的取值范围是1到p， p为指定分割区域的数量； S1075，获取第二匹配次数Sum2＝∑p y＝1[Q′y‑Q(Hr)+1]； S1076，获取目标日志的字符数量Q且获取第一匹配次数Sum1＝Q‑Q(Hr)，其中，第一匹配权　利　要　求　书 1/2 页 2 CN 115543950 A 2次数是指基于S107进行遍历的次数； S1077，当Sum2<Sum1时，基于Hr遍历D′y，获取目标ID。 4.根据权利要求3所述的系统，其特征在于， z <20。 5.根据权利要求 4所述的系统，其特征在于， z＝ 4。 6.根据权利要求1所述的系统，其特征在于，目标设备ID是目标设备的唯一标识。 7.根据权利要求1所述的系统，其特征在于，所述系统包括如下步骤： S10，获取第二目标日志和第二目标日志对应的第二目标DM； S20，当DMi满足预设处理条件时，执行S40； S30，当DMi不满足预设处理条件时，否则执行S60； S40，当存在DMi等于第二目标DM时，获取DMi对应的REi作为第二目标RE列表； S50，当任意DMi不等于第二目标DM，执行S60； S60，基于第一数据列表，获取中间数据提取文本列表RE＝{RE1， RE2，…， REi，…， REm}， REi＝{REi1， REi2，…， REit，…， REik}， REit是指第i个RE列表中第t个中间数据提取文本， t的取值范围是1到k， k是指REi中指定文本的数量； S70，基于REi对第二目标日志进行解析，获取目标解析数据列表Di＝{Di1， Di2，…， Dit，…， Dik}， Dit是指REit对应的目标解析数据； S80，获取空集数量列表E＝{E1， E2，…， Ei，…， Em}， Ei是指遍历 Di， Dit＝null的数量； S90，获取最小空集数量E ′， E′＝min(E1， E2，…， Ei，…， Em)； S91，获取E ′对应的RE ′且将REv作为第二目标数据提取文本列表。 8.根据权利要求7 所述的系统，其特征在于， E0<0.2*k。 9.根据权利要求8所述的系统，其特征在于， E0<0.1*k。 10.根据权利要求7所述的系统，其特征在于，所述DMi满足预设处理条件是指DMi经过 MD5化处理。权　利　要　求　书 2/2 页 3 CN 115543950 A 3

专利 一种日志范化的数据处理系统

专利一种日志范化的数据处理系统