行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111281688.1 (22)申请日 2021.11.01 (71)申请人 上海勃池信息技 术有限公司 地址 200000 上海市嘉定区南翔镇银翔路 515号10层101 1室-1 (72)发明人 周玉  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 代理人 董艳芳 (51)Int.Cl. G06N 20/00(2019.01) (54)发明名称 一种样本特 征选择方法、 装置、 设备及 介质 (57)摘要 本申请公开了一种样本特征选择方法、 装 置、 设备及介质, 应用于人工智能技术领域, 用以 解决现有技术中的样本特征选择方法存在样本 特征选择的准确性较差的问题。 具体为: 获取各 个样本特征的信息量检测结果、 单调性检测结 果、 稳定性检测结果、 重要性检测结果和相关性 检测结果, 并基于各个样本特征的信息量检测结 果、 单调性检测结果、 稳定性检测结果、 重要 性检 测结果和相关性检测结果, 从各个样本特征中选 取目标样本特征。 这样, 通过从信息量、 单调性、 稳定性、 重要性和相关性各方面, 综合评估样本 特征的可选性, 不仅可以缓解关键样本特征丢失 的问题, 还可以提升样本特 征选择的准确性。 权利要求书3页 说明书17页 附图4页 CN 113919510 A 2022.01.11 CN 113919510 A 1.一种样本特 征选择方法, 其特 征在于, 包括: 基于各个样本特征的好样本数量占比和坏样本数量占比, 确定所述各个样本特征的信 息量检测结果; 基于所述各个样本特征的实际样本分布和基准样本分布, 确定所述各个样本特征的单 调性检测结果; 基于所述各个样本特征的训练样本数量占比和验证样本数量占比, 确定所述各个样本 特征的稳定性检测结果; 基于所述各个样本特征的训练样本, 采用重要性检测模型, 确定所述各个样本特征的 重要性检测结果; 基于所述各个样本特征的训练样本, 采用相关性检测方式, 确定所述各个样本特征的 相关性检测结果; 基于所述各个样本特征的信息量检测结果、 单调性检测结果、 稳定性检测结果、 重要性 检测结果和相关性检测结果, 从所述各个样本特 征中选择目标样本特 征。 2.如权利要求1所述的样本特征选择方法, 其特征在于, 基于各个样本特征的好样本数 量占比和坏 样本数量占比, 确定所述各个样本特 征的信息量检测结果, 包括: 针对所述各个样本特征, 基于所述样本特征对应的各个特征分箱 的好样本数量占比、 坏样本数量占比, 确定所述各个特征分箱的证据权重, 并基于所述各个特征分箱的好样本 数量占比、 坏样 本数量占比和证据权重, 确定所述各个特征分箱的信息量, 以及基于所述各 个特征分箱的信息量, 确定所述样本特征的信息量并作为所述样本特征的信息量检测结 果。 3.如权利要求1所述的样本特征选择方法, 其特征在于, 基于所述各个样本特征的实际 样本分布和基准样本分布, 确定所述各个样本特 征的单调性检测结果, 包括: 针对所述各个样本特征, 基于所述样本特征的训练样本中好样本的实际样本分布与基 准样本分布是否一 致, 确定所述样本特 征的单调性检测结果; 或者, 针对所述各个样本特征, 基于所述样本特征的训练样本中坏样本的实际样本分布与基 准样本分布是否一 致, 确定所述样本特 征的单调性检测结果。 4.如权利要求1所述的样本特征选择方法, 其特征在于, 基于所述各个样本特征的训练 样本数量占比和验证样本数量占比, 确定所述各个样本特 征的稳定性检测结果, 包括: 针对所述各个样本特征, 基于所述样本特征对应的各个特征分箱的训练样本数量占 比、 验证样本数量占比, 确定所述各个特征分箱的特征稳定性指标, 基于所述各个特征分箱 的特征稳定性指标, 确定所述样本特征的特征稳定性指标并作为所述样本特征的稳定性检 测结果。 5.如权利要求1所述的样本特征选择方法, 其特征在于, 基于所述各个样本特征的训练 样本, 采用重要性检测模型, 确定所述各个样本特 征的重要性检测结果, 包括: 将所述各个样本特征的训练样本输入一个重要性检测模型, 得到包含所述各个样本特 征的重要性得分的重要性检测结果; 或者, 将所述各个样本特征的训练样本多次输入一个重要性检测模型, 得到多个包含所述各 个样本特 征的重要性得分的重要性检测结果; 或者, 将所述各个样本特征的训练样本分别输入至少两个重要性检测模型, 得到至少两个包权 利 要 求 书 1/3 页 2 CN 113919510 A 2含所述各个样本特 征的重要性得分的重要性检测结果。 6.如权利要求1所述的样本特征选择方法, 其特征在于, 所述相关性检测方式包括两两 相关性检测算法和/或多重共线性检测算法; 基于所述各个样本特征的训练样本, 采用相关 性检测方式, 确定所述各个样本特 征的相关性检测结果, 包括: 基于所述各个样本特征的训练样本, 采用两两相关性检测算法, 得到每两个样本特征 之间的两 两相关性得分并作为所述各个样本特 征的相关性检测结果; 和/或, 基于所述各个样本特征的训练样本, 采用多重共线性检测算法, 得到所述各个样本特 征的多重共线性得分并作为所述各个样本特 征的相关性检测结果。 7.如权利要求1 ‑6任一项所述的样本特征选择方法, 其特征在于, 基于所述各个样本特 征的信息量检测结果、 单调性检测结果、 稳定性检测结果、 重要性检测结果和相关性检测结 果, 从所述各个样本特 征中选择目标样本特 征, 包括: 基于所述各个样本特征的信 息量检测结果, 从所述各个样本特征中选择信 息量在设定 范围内的样本特 征组成第一待选样本特 征集合; 基于所述各个样本特征的单调性检测结果, 从所述各个样本特征中选择单调性检测通 过的样本特 征组成第二待选样本特 征集合; 基于所述各个样本特征的稳定性检测结果, 从所述各个样本特征中选择特征稳定性指 标不大于稳定性阈值的样本特 征组成第三待选样本特 征集合; 基于所述各个样本特征的重要性检测结果, 从所述各个样本特征中选择重要性得分满 足重要性筛 选条件的样本特 征组成第四待选样本特 征集合; 基于所述各个样本特征的相关性检测结果, 从所述样本特征中选择两两相关性得分 和/或多重共线性得分满足相关性筛 选条件的样本特 征组成第五待选样本特 征集合; 基于所述第一待选样本特征集合、 所述第二待选样本特征集合、 所述第三待选样本特 征集合、 所述第四待选样本特征集合和所述第 五待选样本特征集合, 获得所述目标样本特 征。 8.一种样本特 征选择装置, 其特 征在于, 包括: 信息量检测单元, 用于基于各个样本特征的好样本数量占比和坏样本数量占比, 确定 所述各个样本特 征的信息量检测结果; 单调性检测单元, 用于基于所述各个样本特征的实 际样本分布和基准样本分布, 确定 所述各个样本特 征的单调性检测结果; 稳定性检测单元, 用于基于所述各个样本特征的训练样本数量占比和验证样本数量占 比, 确定所述各个样本特 征的稳定性检测结果; 重要性检测单元, 用于基于所述各个样本特征的训练样本, 采用重要性检测模型, 确定 所述各个样本特 征的重要性检测结果; 相关性检测单元, 用于基于所述各个样本特征的训练样本, 采用相关性检测方式, 确定 所述各个样本特 征的相关性检测结果; 特征选择单元, 用于基于所述各个样本特征的信息量检测结果、 单调性检测结果、 稳定 性检测结果、 重要性检测结果和相关性检测结果, 从所述各个样本特征中选择目标样本特 征。 9.一种样本特征选择设备, 其特征在于, 包括: 存储器、 处理器和存储在所述存储器上权 利 要 求 书 2/3 页 3 CN 113919510 A 3

.PDF文档 专利 一种样本特征选择方法、装置、设备及介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种样本特征选择方法、装置、设备及介质 第 1 页 专利 一种样本特征选择方法、装置、设备及介质 第 2 页 专利 一种样本特征选择方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:00:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。