行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211207011.8 (22)申请日 2022.09.30 (71)申请人 上海浦东发展银行股份有限公司 地址 200001 上海市黄浦区中山 东一路12 号 (72)发明人 周帆 徐开明 王栋慧 (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 黄丽霞 (51)Int.Cl. G06K 9/62(2022.01) G06Q 20/40(2012.01) G06Q 40/04(2012.01) (54)发明名称 异常数据 识别、 标签识别方法和异常数据 识 别装置 (57)摘要 本申请涉及一种异常数据 识别方法、 标签识 别方法、 异常数据识别装置、 计算机设备、 存储介 质和计算机程序产品, 通过 获取待识别的样本数 据, 并根据样本数据构建回归决策树模型, 进而 根据预设识别规则以及回归决策树模型获取异 常数据的识别条件, 根据 识别条件识别样本数据 中的异常数据, 能够准确识别样 本数据中的异常 数据, 从而根据将异常数据剔除后的目标训练数 据构建对应的标签识别模型, 能够提升模型识别 的准确率, 实现标签的准确识别。 权利要求书2页 说明书17页 附图9页 CN 115545103 A 2022.12.30 CN 115545103 A 1.一种异常数据识别方法, 其特 征在于, 所述方法包括: 获取待识别的样本数据, 所述样本数据中包 含多个训练集的样本数据; 根据所述样本数据构建回归决策树模型; 根据预设识别规则以及所述回归决策树模型获取异常数据的识别条件; 根据所述识别条件识别所述样本数据中的异常数据。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述样本数据构建回归决策树模 型, 包括: 获取所述样本数据中的离 散变量和连续型变量; 从所述离 散变量和连续型变量中筛 选出满足预设筛 选要求的变量; 根据所述满足预设筛选要求的变量构建分布模型, 并通过所述分布模型输出所述样本 数据中各训练集中样本为目标样本的概 率; 根据所述各训练集 为目标样本的概 率从所述样本数据中获取目标样本; 根据所述目标样本构建回归决策树模型。 3.根据权利要求1所述的方法, 其特征在于, 所述根据预设识别规则以及所述 回归决策 树模型获取异常数据的识别条件, 包括: 获取所述回归决策树模型中各节点的区分能力; 获取所述区分能力满足要求的一组所述节点对应的节点特 征组; 根据预设识别规则对所述目标样本的异常值进行剔除, 得到剔除后的样本数据; 根据所述剔除后样本数据获取 所述节点特 征组中符合目标要求的目标 特征; 获取所述剔除后的样本数据的分布情况; 根据所述样本数据的分布情况获取 所述目标 特征对应的特 征阈值; 将所述满足目标要求的特 征以及对应的特 征阈值作为异常数据的识别条件。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述识别条件识别所述样本数据 中的异常数据, 包括: 将所述样本数据中为所述目标的特 征并满足所述特 征阈值的数据识别为异常数据。 5.一种标签识别方法, 其特 征在于, 所述方法包括: 通过权利要求1至4中任意一项所述的异常数据识别方法识别异常数据, 并剔除异常数 据得到目标训练数据; 获取所述目标训练数据对应的特 征数据; 判断所述目标训练数据是否满足预设条件; 若所述目标训练数据满足所述预设条件, 则按第一时长计算所述特征数据的聚合指 标, 并根据所述聚合指标构建 分类决策树; 若所述目标训练数据不满足所述预设条件, 则按第 二时长计算所述特征数据的综合指 标, 并根据所述综合指标构建机器学习模型, 所述第二时长与所述第一时长不相同; 根据所述分类决策树和/或所述机器学习模型进行 标签识别。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述分类决策树进行标签识别, 包括: 获取所述分类决策树中区分度满足区分要求的子树以及对应的节点; 获取所述区分度满足区分要求的子树中满足筛 选要求的子树;权 利 要 求 书 1/2 页 2 CN 115545103 A 2将所述满足筛 选要求的子树对应的节点的生成方法作为标签识别的规则; 根据所述标签识别的规则以及预设规则进行 标签识别。 7.根据权利要求5所述的方法, 其特征在于, 所述根据所述综合指标构建机器学习模 型, 包括: 根据所述综合指标获取 所述训练数据中的变量; 从所述变量中获取 预测能力达 到预设目标的变量; 根据所述预测能力达 到预设目标的变量构建机器学习模型。 8.根据权利要求7所述的方法, 其特征在于, 所述根据所述机器学习模型进行标签识 别, 包括: 获取所述预测能力达 到预设目标的变量在所述机器学习模型中的权 重; 根据所述权 重以及业 务经验从所述预测能力达 到预设目标的变量中获取目标变量; 根据所述目标变量以及所述机器学习模型进行 标签识别。 9.根据权利要求5所述的方法, 其特 征在于, 所述方法还 包括: 获取所述根据所述分类决策树进行 标签识别后的第一识别结果; 获取所述根据所述机器学习模型进行 标签识别后的第二识别结果; 计算所述第一识别结果和所述第二识别结果的数 学统计值; 将所数学统计值作为 最终的标签识别结果进行输出。 10.一种异常数据识别装置, 其特 征在于, 所述装置包括: 数据获取模块, 用于获取待识别的样本数据, 所述样本数据中包含多个训练集的样本 数据; 模型构建模块, 用于根据所述样本数据构建回归决策树模型; 条件获取模块, 用于根据预设识别规则以及所述 回归决策树模型获取异常数据的识别 条件; 异常识别模块, 用于根据所述识别条件识别所述样本数据中的异常数据。 11.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处理器执行所述计算机程序时实现权利要求 1至4或5至9中任一项 所述的方法的步 骤。 12.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至4或5 至9中任一项所述的方法的步骤。 13.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1至4或5 至9中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115545103 A 3
专利 异常数据识别、标签识别方法和异常数据识别装置
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-17 23:43:26
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
DB52-T 1636.6-2021 机关事务云 第6部分:公共机构节能管理数据 贵州省.pdf
JR-T 0256—2022 金融行业信息系统商用密码应用 测评要求.pdf
TTAF 077.18—2022 APP收集使用个人信息最小必要评估规范 第18部分:剪切板信息.pdf
T-SSITS 204—2023 工业应用移动机器人与其调度系统数据接口规范.pdf
GB-T 20733-2022 数码照相机 术语.pdf
T-WJDGC 0010—2022 生产自动化智能控制系统与高效节能技术.pdf
商用密码应用安全性评估报告模板(2023版)—系统密评报告.docx
T-WAPIA 045.4—2021 信息技术 系统间远程通信和信息交换 原子密钥建立与实体鉴别 第4 部分:采用预共享密钥的原子密钥建立与实体鉴别.pdf
GB-T 17749-2008 白度的表示方法.pdf
HB 8456-2014 民用飞机研制阶段评审要求.pdf
汽车数据安全管理若干规定(试行).pdf
GB-T 36549-2018 电化学储能电站运行指标及评价.pdf
T-CGDF 00002—2021 自然教育指导师专业标准.pdf
GB-T 21063.1-2007 政务信息资源目录体系 第1部分 总体框架.pdf
DB65-T 3253-2020 建筑消防设施质量检测评定规程 新疆维吾尔自治区.pdf
DB11-T 1190.1-2015 古建筑结构安全性鉴定技术规范 第1部分:木结构 北京市.pdf
T-CERS 0002—2018 3.6kV~40.5kV交流金属封闭开关 设备和控制设备 环保气体.pdf
GB-T 39046-2020 政务服务平台基础数据规范.pdf
SC-T 1077-2004 渔用配合饲料通用技术要求.pdf
DB14-T 2987—2024 山西电子政务外网电子认证系统总体架构 山西省.pdf
1
/
3
29
评价文档
赞助2.5元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。