行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211207011.8 (22)申请日 2022.09.30 (71)申请人 上海浦东发展银行股份有限公司 地址 200001 上海市黄浦区中山 东一路12 号 (72)发明人 周帆 徐开明 王栋慧  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 黄丽霞 (51)Int.Cl. G06K 9/62(2022.01) G06Q 20/40(2012.01) G06Q 40/04(2012.01) (54)发明名称 异常数据 识别、 标签识别方法和异常数据 识 别装置 (57)摘要 本申请涉及一种异常数据 识别方法、 标签识 别方法、 异常数据识别装置、 计算机设备、 存储介 质和计算机程序产品, 通过 获取待识别的样本数 据, 并根据样本数据构建回归决策树模型, 进而 根据预设识别规则以及回归决策树模型获取异 常数据的识别条件, 根据 识别条件识别样本数据 中的异常数据, 能够准确识别样 本数据中的异常 数据, 从而根据将异常数据剔除后的目标训练数 据构建对应的标签识别模型, 能够提升模型识别 的准确率, 实现标签的准确识别。 权利要求书2页 说明书17页 附图9页 CN 115545103 A 2022.12.30 CN 115545103 A 1.一种异常数据识别方法, 其特 征在于, 所述方法包括: 获取待识别的样本数据, 所述样本数据中包 含多个训练集的样本数据; 根据所述样本数据构建回归决策树模型; 根据预设识别规则以及所述回归决策树模型获取异常数据的识别条件; 根据所述识别条件识别所述样本数据中的异常数据。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述样本数据构建回归决策树模 型, 包括: 获取所述样本数据中的离 散变量和连续型变量; 从所述离 散变量和连续型变量中筛 选出满足预设筛 选要求的变量; 根据所述满足预设筛选要求的变量构建分布模型, 并通过所述分布模型输出所述样本 数据中各训练集中样本为目标样本的概 率; 根据所述各训练集 为目标样本的概 率从所述样本数据中获取目标样本; 根据所述目标样本构建回归决策树模型。 3.根据权利要求1所述的方法, 其特征在于, 所述根据预设识别规则以及所述 回归决策 树模型获取异常数据的识别条件, 包括: 获取所述回归决策树模型中各节点的区分能力; 获取所述区分能力满足要求的一组所述节点对应的节点特 征组; 根据预设识别规则对所述目标样本的异常值进行剔除, 得到剔除后的样本数据; 根据所述剔除后样本数据获取 所述节点特 征组中符合目标要求的目标 特征; 获取所述剔除后的样本数据的分布情况; 根据所述样本数据的分布情况获取 所述目标 特征对应的特 征阈值; 将所述满足目标要求的特 征以及对应的特 征阈值作为异常数据的识别条件。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述识别条件识别所述样本数据 中的异常数据, 包括: 将所述样本数据中为所述目标的特 征并满足所述特 征阈值的数据识别为异常数据。 5.一种标签识别方法, 其特 征在于, 所述方法包括: 通过权利要求1至4中任意一项所述的异常数据识别方法识别异常数据, 并剔除异常数 据得到目标训练数据; 获取所述目标训练数据对应的特 征数据; 判断所述目标训练数据是否满足预设条件; 若所述目标训练数据满足所述预设条件, 则按第一时长计算所述特征数据的聚合指 标, 并根据所述聚合指标构建 分类决策树; 若所述目标训练数据不满足所述预设条件, 则按第 二时长计算所述特征数据的综合指 标, 并根据所述综合指标构建机器学习模型, 所述第二时长与所述第一时长不相同; 根据所述分类决策树和/或所述机器学习模型进行 标签识别。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述分类决策树进行标签识别, 包括: 获取所述分类决策树中区分度满足区分要求的子树以及对应的节点; 获取所述区分度满足区分要求的子树中满足筛 选要求的子树;权 利 要 求 书 1/2 页 2 CN 115545103 A 2将所述满足筛 选要求的子树对应的节点的生成方法作为标签识别的规则; 根据所述标签识别的规则以及预设规则进行 标签识别。 7.根据权利要求5所述的方法, 其特征在于, 所述根据所述综合指标构建机器学习模 型, 包括: 根据所述综合指标获取 所述训练数据中的变量; 从所述变量中获取 预测能力达 到预设目标的变量; 根据所述预测能力达 到预设目标的变量构建机器学习模型。 8.根据权利要求7所述的方法, 其特征在于, 所述根据所述机器学习模型进行标签识 别, 包括: 获取所述预测能力达 到预设目标的变量在所述机器学习模型中的权 重; 根据所述权 重以及业 务经验从所述预测能力达 到预设目标的变量中获取目标变量; 根据所述目标变量以及所述机器学习模型进行 标签识别。 9.根据权利要求5所述的方法, 其特 征在于, 所述方法还 包括: 获取所述根据所述分类决策树进行 标签识别后的第一识别结果; 获取所述根据所述机器学习模型进行 标签识别后的第二识别结果; 计算所述第一识别结果和所述第二识别结果的数 学统计值; 将所数学统计值作为 最终的标签识别结果进行输出。 10.一种异常数据识别装置, 其特 征在于, 所述装置包括: 数据获取模块, 用于获取待识别的样本数据, 所述样本数据中包含多个训练集的样本 数据; 模型构建模块, 用于根据所述样本数据构建回归决策树模型; 条件获取模块, 用于根据预设识别规则以及所述 回归决策树模型获取异常数据的识别 条件; 异常识别模块, 用于根据所述识别条件识别所述样本数据中的异常数据。 11.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处理器执行所述计算机程序时实现权利要求 1至4或5至9中任一项 所述的方法的步 骤。 12.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至4或5 至9中任一项所述的方法的步骤。 13.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1至4或5 至9中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115545103 A 3

.PDF文档 专利 异常数据识别、标签识别方法和异常数据识别装置

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 异常数据识别、标签识别方法和异常数据识别装置 第 1 页 专利 异常数据识别、标签识别方法和异常数据识别装置 第 2 页 专利 异常数据识别、标签识别方法和异常数据识别装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:43:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。