(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211059848.2
(22)申请日 2022.08.30
(71)申请人 易江枫
地址 561000 贵州省安 顺市学院路25号 安
顺学院
(72)发明人 易江枫 许闻
(74)专利代理 机构 深圳市六加知识产权代理有
限公司 4 4372
专利代理师 刘慧
(51)Int.Cl.
G06F 11/07(2006.01)
G06F 16/36(2019.01)
G06K 9/62(2022.01)
(54)发明名称
人工智能与大数据结合的异常检测方法及
服务系统
(57)摘要
本发明公开了人工智能与大数据结合的异
常检测方法, 包括: 云服务器从HBase数据库中采
集系统操作记录, 所述操作记录中包括用户标
签、 操作时间和操作指令; 按照操作时间进行排
序, 并将排序后的所述操作记录生成记录表, 所
述记录表包含多个记录; 将所述记录表输入至改
进的贝叶斯概率模型, 获取到每一个记录中每一
字符串的概率, 并保留概率大于第一阈值的记
录, 舍弃概率小于等于第一阈值的记录; 对所述
保留的记录进行特征数处理, 并将特征数处理后
的记录输入局部异常因子和知识图谱联合模型
进行异常检测。
权利要求书2页 说明书11页 附图2页
CN 115408189 A
2022.11.29
CN 115408189 A
1.一种人工智能与大 数据结合的异常检测方法, 其特 征在于, 包括:
云服务器从HBase数据库中采集系统操作记录, 所述操作记录中包括用户标签、 操作时
间和操作指令;
按照操作时间进行排序, 并将排序后的所述操作记录生成记录表, 所述记录表包含多
个记录;
将所述记录表输入至改进的贝叶斯概率模型, 获取到每一个记录中每一字符串的概
率, 并保留概 率大于第一阈值的记录, 舍弃概 率小于等于第一阈值的记录;
对所述保留的记录进行特征数处理, 并将特征数处理后的记录输入局部异常因子和知
识图谱联合模型进行异常检测。
2.根据权利要求1所述的方法, 其特征在于, 将所述记录表输入至改进的贝叶斯概率模
型, 获取到每一个记录中每一字符串的概 率, 包括:
计算所述每一个记录中的每一个字符出现的概 率Ps:
Ps=P[Sn=bn]*u
其中, u为当前记录出现的概 率权重, s为字符串标识, b为下一字符串标识, n 为正整数;
若字符出现的概 率Pu大于 字符阈值, 则设定所述字符为 候选节点;
设置树形 结构, 初始化 根节点, 并将每一个候选节点依次设置在所述 树形结构中;
递归遍历所述 候选节点, 获取到每一个记录中每一字符串的概 率。
3.根据权利要求2所述的方法, 其特征在于, 递归遍历所述候选节点, 获取到每一个记
录中每一字符串的概 率, 包括:
计算当前字符串后出现下一字符串的概 率Pb;
若Pb大于第二阈值, 则保留所述字符串对应的候选节点, 否则舍 弃所述字符串对应的候
选节点;
对所述保留的候选节点 概率进行加权平均, 计算出 所述候选节点对应的记录的概 率。
4.根据权利要求1所述的方法, 其特 征在于, 对所述保留的记录进行 特征数处理, 包括:
获取所述保留的记录的最大长度;
对记录长度小于所述 最大长度的记录进行 数值填充, 以使每一记录的特 征数相同。
5.根据权利要求1所述的方法, 其特征在于, 将特征数处理后的记录输入局部异常因子
和知识图谱联合模型进行异常检测, 包括:
使用K‑means聚类算法对所述记录进行异常筛查;
使用局部异常因子模型, 对异常筛查后的记录进行局部因子 筛查;
基于局部因子 筛查后的记录, 生成知识图谱, 所述知识图谱 包括多个三元组 组成;
基于所述知识图谱, 对所述记录进行异常原因补全。
6.根据权利要求5所述的方法, 其特征在于, 使用K ‑means聚类算法对所述记录进行异
常筛查, 包括:
初始化多个记录的簇群, 预设所述簇群中包 含m个簇心;
设置所述簇群中的任一节点 为第一簇心;
计算任一节点距离所述簇心的欧式距离;
选取最大欧式距离的节点 为第二簇心;
重复上述计算及选取 过程, 直至 选取出m个簇心;权 利 要 求 书 1/2 页
2
CN 115408189 A
2计算每一个记录到m个簇心的距离, 并找到每一记录最近的簇心, 并计算该簇心对应簇
群的重心;
对于每一个簇心, 计算所述簇心对应簇群的重心与所述簇心 的距离, 并按照从大到小
的顺序进行排列, 将距离大于预设阈值的设置为异常记录 。
7.根据权利要求5所述的方法, 其特征在于, 使用局部异常因子模型, 对异常筛查后的
记录进行局部因子 筛查, 包括:
定义领域大小k和污染参数c;
依次遍历k和c, 计算在k和c的不同取值下的点的局部 离群因子得分的均值和方差;
对于每个c和k, 计算预测异常和正常点之间的局部异常因子得分的差异;
选取差异集合Tc,k中的最大值对应的k作 为局部异常因子算法k值,选取k值所对应的差
异集合Tc,k, opt所对应的c值作为局部异常因子算法c值的最优解。
8.根据权利要求5所述的方法, 其特征在于, 基于所述知识图谱, 对所述记录进行异常
原因补全, 包括:
使用预训练语言模型将所述知识图谱的三元组头实体、 尾实体和关系进行处理, 获取
每个三元组的表示向量和概 率分布大小;
使用欧式距离获取到三元组目标实体N个最近的邻居节点, 所述邻居节点为所述异常
根因节点;
将所述N个最近的邻居节点的概率进行排序, 得到其中概率最大的邻居节点, 将该节点
的根因内容作为所述记录的异常原因进行补全。
9.一种人工智能与大 数据结合的异常检测服 务系统, 其特 征在于, 包括:
采集单元, 用于从HBase数据库中采集系 统操作记录, 所述操作记录中包括用户标签、
操作时间和操作指令;
排序单元, 用于按照操作时间进行排序, 并将排序后的所述操作记录生成记录表, 所述
记录表包 含多个记录;
处理单元, 用于将所述记录表输入至改进的贝叶斯概率模型, 获取到每一个记录中每
一字符串的概率, 并保留概率大于第一阈值的记录, 舍弃概率小于等于第一阈值的记录; 对
所述保留的记录进行特征数处理, 并将特征数 处理后的记录输入局部异常因子和知识图谱
联合模型进行异常检测。
10.一种人工智能与 大数据结合的异常检测服务系统, 其特征在于, 包括存储器和处理
器, 所述存储器上存储有计算机可执行指令, 所述处理器运行所述存储器上 的计算机可执
行指令时实现权利要求1至8任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115408189 A
3
专利 人工智能与大数据结合的异常检测方法及服务系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:41:50上传分享