行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111388331.3 (22)申请日 2021.11.22 (71)申请人 深圳大学 地址 518060 广东省深圳市南 山区南海大 道3688号 (72)发明人 江魁 卢橹帆  (74)专利代理 机构 北京品源专利代理有限公司 11332 代理人 潘登 (51)Int.Cl. H04L 9/40(2022.01) G06N 20/00(2019.01) G06K 9/62(2022.01) (54)发明名称 SHDOS数据处理、 模 型训练方法、 设备及存储 介质 (57)摘要 本发明公开了一种SHDOS数据处理、 模型训 练方法、 设备及存储介质。 该方法包括: 获取 SHDOS数据集, SHDOS数据集包括: 攻击数据集和 正常数据集; 将攻击数据集进行分类处理得到安 全地带数据集和边界地带数据集; 基于第一预设 采样率对安全地带数据集进行过采样得到安全 地带样本集, 并基于第二预设采样率对边界地带 数据集进行过采样得到边界地带样 本集, 第一预 设采样率小于第二预设采样率; 根据安全地带样 本集、 边界地带样本集和正常数据集的集合确定 训练样本集, 训练样本集用于训练机器学习模型 得到攻击检测模型, 通过本发明的技术方案, 能 够增加边界地带数据, 让模型在边界地带上进行 更多的训练来应对SHDOS的攻击场景, 提高模型 对频率变化的SHDOS攻击的检测精度。 权利要求书2页 说明书13页 附图4页 CN 114070635 A 2022.02.18 CN 114070635 A 1.一种SHDOS数据处 理方法, 其特 征在于, 包括: 获取SHDOS数据集, 所述SHDOS数据集包括: 攻击数据集和正常数据集; 将所述攻击数据集进行分类处 理得到安全地带 数据集和边界地带 数据集; 基于第一预设采样率对所述安全地带数据集进行过采样得到安全地带样本集, 并基于 第二预设采样率对所述边界地带数据集进 行过采样得到边界地带样本集, 所述第一预设采 样率小于所述第二预设采样率; 根据所述安全地带样本集、 所述边界地带样本集和所述正常数据集的集合确定训练样 本集, 所述训练样本集用于训练机器学习模型 得到攻击检测模型。 2.根据权利要求1所述的方法, 其特征在于, 将所述攻击数据集进行分类处理得到安全 地带数据集和边界地带 数据集, 包括: 获取所述攻击数据集中的每个攻击数据对应的近邻数据集, 所述近邻数据集包括: 近 邻攻击数据和近邻正常数据; 若所述近邻攻击数据与所述近邻数据集所包含近邻数据的数量比大于第 一预设比例, 则将所述攻击数据确定为安全地带数据, 并确定所述攻击数据集中每个安全地带数据所构 成的安全地带 数据集; 若所述近邻正常数据与所述近邻数据集所包含近邻数据的数量比大于第 二预设比例, 则所述攻击数据确定为边界地带数据, 并确定所述攻击数据集中每个边界地带数据所构成 的边界地带 数据集。 3.根据权利要求1所述的方法, 其特征在于, 基于预设采样率对目标数据集进行过采样 得到目标样本集, 包括: 从目标数据集中随机选取一个目标数据, 对所述目标数据进行线性插值操作得到插值 数据; 其中, 所述线性插值操作为: 从所述目标数据对应的近邻数据集中随机选择一个近邻 数据, 基于所述近邻数据和所述目标 数据确定插值数据; 基于预设采样率所确定的采样次数重复执行从 目标数据集中随机选取一个目标数据, 对所述目标数据进行线性插值操作得到插值数据的操作, 得到采样次数个插值数据构成的 目标样本集; 其中, 所述目标数据集包括: 所述安全地带数据集或者所述边界地带数据集, 所述目标 数据包括: 所述安全地带数据集中的安全地带数据或者所述边界地带数据集中的边界地带 数据; 所述预设采样率包括: 第一预设采样率或者第二采样率; 所述目标样本集包括: 基于 第一预设采样率对所述安全地带数据集进 行过采样得到的安全地带样本集, 或者基于第二 预设采样率对所述 边界地带 数据集进行 过采样得到的边界地带样本集。 4.根据权利要求1所述的方法, 其特征在于, 根据所述安全地带样本集、 所述边界地带 样本集和所述 正常数据集的集 合确定训练样本集, 包括: 将所述安全地带样本集、 所述边界地带样本集和所述正常数据集的集合确定为平衡数 据集; 对所述平衡数据集中的每 个数据进行降维处 理得到训练样本集。 5.根据权利要求4所述的方法, 其特征在于, 对所述平衡数据集中的每个数据进行降维 处理得到训练样本集, 包括:权 利 要 求 书 1/2 页 2 CN 114070635 A 2获取所述平衡数据集中每 个数据的特 征向量; 基于各所述特征向量确定所述平衡数据集的特 征矩阵; 对所述特 征矩阵中每一行的特 征值进行零均值 化; 确定零均值化后的特征矩阵对应的协方差矩阵, 计算得到所述协方差矩阵的协方差特 征值和协方差特 征向量; 基于所述协方差特 征值和所述协方差特 征向量确定降维矩阵; 将所述降维矩阵与所述平衡数据集的特 征矩阵相乘得到的矩阵确定为训练样本集。 6.根据权利 要求1所述的方法, 其特征在于, 在获取SHD OS数据集之后, 将所述攻击数据 集进行分类处 理得到安全地带 数据集和边界地带 数据集之前, 还 包括: 获取所述SHDOS数据集中每 个数据的特 征向量; 基于各所述特征向量对所述SHDOS数据集中每 个数据归一 化处理得到标准数据集; 对所述标准数据集进行降噪处 理, 以得到降噪后的攻击数据集和正常数据集。 7.根据权利要求6所述的方法, 其特 征在于, 对所述标准数据集进行降噪处 理包括: 针对所述标准数据集的每个标准数据, 计算所述标准数据的特征向量与所述SHDOS数 据集中的其 他数据的特 征向量之间的欧式距离; 确定各所述标准数据对应的近邻数据集, 所述近邻数据集包括: 与所述标准数据的欧 式距离最小的预设数量个近邻数据; 对于所述标准数据集中的攻击数据集所包含的每个攻击数据, 若所述攻击数据对应的 近邻数据集所包 含的近邻数据全部为 正常数据, 则 删除所述 攻击数据; 对于所述标准数据集中的正常数据集所包含的每个正常数据, 若所述正常数据对应的 近邻数据集所包 含的近邻数据全部为 攻击数据, 则 删除所述 正常数据。 8.一种模型训练方法, 其特 征在于, 包括: 获取训练样本集, 所述训练样本集包括: SHDOS数据 集中的正常数据 集、 所述SHD OS数据 集中的攻击数据集对应的安全地带样本集和边界地带样本集, 所述安全地带样本集和边界 地带样本集是以不同的预设采样率分别对所述攻击数据集分类得到的安全地带数据集和 边界地带 数据集进行 过采样得到的样本集; 利用所述训练样本集训练机器学习模型 得到攻击检测模型。 9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1 ‑7中任一所述的 SHDOS数据处 理方法或者实现如权利要求8所述的模型训练方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行时实现如权利要求 1‑7中任一所述的S HDOS数据处理方法或者 实现如权利要求8所述的 模型训练方法。权 利 要 求 书 2/2 页 3 CN 114070635 A 3

.PDF文档 专利 SHDOS数据处理、模型训练方法、设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 SHDOS数据处理、模型训练方法、设备及存储介质 第 1 页 专利 SHDOS数据处理、模型训练方法、设备及存储介质 第 2 页 专利 SHDOS数据处理、模型训练方法、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 18:58:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。