全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210755319.X (22)申请日 2022.06.28 (71)申请人 平安银行股份有限公司 地址 518000 广东省深圳市罗湖区深南 东 路5047号 (72)发明人 王娟 孙野 曹杨  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 李申 (51)Int.Cl. G06F 16/9035(2019.01) G06Q 10/06(2012.01) G06Q 40/02(2012.01) (54)发明名称 交叉变量数据的生成方法、 设备和存 储介质 (57)摘要 本申请公开了一种交叉变量数据的生成方 法、 设备和存储介质, 该方法包括: 获取若干第一 变量数据集; 其中, 若干第一变量数据集为与信 贷相关的数据集; 对若干第一变量数据集进行交 叉处理, 得到若干初始交叉变量数据集; 从若干 初始交叉变量数据集中, 选出符合第一预设要求 的初始交叉变量数据集, 作为目标交叉变量数据 集。 通过上述方式, 本申请能够在不依赖人工业 务经验的情况 下生成符合要求的交叉变量数据。 权利要求书2页 说明书8页 附图2页 CN 115062196 A 2022.09.16 CN 115062196 A 1.一种交叉变量数据的生成方法, 其特 征在于, 所述方法包括: 获取若干第一变量数据集; 其中, 所述若干第一变量数据集 为与信贷相关的数据集; 对所述若干第一变量数据集进行交叉处 理, 得到若干初始交叉变量数据集; 从所述若干初始交叉变量数据集中, 选出符合第 一预设要求的所述初始交叉变量数据 集, 作为目标交叉变量数据集。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述若干第 一变量数据集进行交叉 处理是利用XGB模型执行的; 所述XGB模型的树的深度小于或等于第一阈值, 所述树的深度 与所述初始交叉变量数据集的复杂度相关; 所述XGB模型的树的棵树小于或等于第二阈值, 所述树的棵树与所述初始交叉变量数据集的数量相关。 3.根据权利要求1所述的方法, 其特征在于, 在所述从所述若干初始交叉变量数据集 中, 选出符合第一预设要求的所述初始交叉变量数据集, 作为目标 交叉变量数据集之前, 所 述方法还 包括: 获取各所述初始交叉变量数据集对应的第一评估指标; 所述从所述若干初始 交叉变量数据集中, 选出符合第 一预设要求的所述初始 交叉变量 数据集, 作为目标交叉变量数据集, 包括: 从所述若干初始交叉变量数据集中, 选出所述第 一评估指标符合所述第 一预设要求的 所述初始交叉变量数据集, 作为所述目标交叉变量数据集。 4.根据权利要求3所述的方法, 其特征在于, 所述第一评估指标包括F1分数, 所述第一 预设要求为所述F1分数大于或等于第三阈值; 所述从所述若干初始交叉变量数据集中, 选 出所述第一评估指标符合所述第一预设要求的所述初始交叉变量数据集, 作为所述目标 交 叉变量数据集, 包括: 对于各所述初始交叉变量数据集, 响应于所述初始交叉变量数据集的F1分数大于或等 于所述第三阈值, 将所述初始交叉变量作为所述目标交叉变量数据集。 5.根据权利要求1所述的方法, 其特征在于, 在所述从所述若干初始交叉变量数据集 中, 选出符合第一预设要求的所述初始交叉变量数据集, 作为目标 交叉变量数据集之后, 所 述方法还 包括: 基于所述目标交叉变量数据集, 得到若干变量组合数据集; 利用交叉验证算法运行 各所述变量组合数据集的逻辑回归 模型, 得到若干初始模型; 从所述若干初始模型中, 选出符合第二预设要求的所述初始模型, 作为目标模型。 6.根据权利要求5所述的方法, 其特征在于, 在从所述若干初始模型中, 选出符合第二 预设要求的所述初始模型, 作为目标模型之前, 所述方法还 包括: 获取各所述初始模型对应的第二评估指标; 所述从所述若干初始模型中, 选出符合第二预设要求的所述初始模型, 作为目标模型, 包括: 从所述若干初始模型中, 选出所述第 二评估指标符合所述第 二预设要求的所述初始模 型, 作为所述目标模型。 7.根据权利要求6所述的方法, 其特征在于, 所述第二评估指标包括KS的相关值, 所述 从所述若干初始模型中, 选出所述第二评估指标符合所述第二预设要求的所述初始模型, 作为所述目标模型, 包括:权 利 要 求 书 1/2 页 2 CN 115062196 A 2对于各所述初始模型, 响应于所述初始模型的KS的相关值符合所述第二预设要求, 将 所述初始模型作为所述目标模型。 8.根据权利要求7所述的方法, 其特征在于, 所述KS的相 关值包括KS的最大值、 KS的平 均值和KS的最大差值, 所述第二预设要求包括所述KS的最大值大于或等于第四阈值、 且所 述KS的平均值大于或等于第五阈值、 且所述KS的最大差值大于或等于第六阈值。 9.根据权利要求5所述的方法, 其特征在于, 所述基于所述目标交叉变量数据集, 得到 若干变量组合数据集, 包括: 获取若干第二变量数据集; 其中, 所述若干第二变量数据集为与所述信贷相关的数据 集; 按照维度对所述若干第 二变量数据集和所述目标交叉变量数据集进行划分, 得到若干 不同维度的变量组数据集; 至少从部分所述不同维度的变量组数据集提取预设个数的变量数据集并进行组合, 得 到所述若干变量组合数据集。 10.一种交叉变量数据的生成设备, 其特征在于, 所述交叉变量的生成设备包括存储器 和处理器, 所述存储器存储有程序指令, 所述处理器用于执行所述程序指令以实现权利要 求1‑9任一项所述的交叉变量数据的生成方法。 11.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储程序指 令, 所述程序指令能够被执 行以实现权利要求1 ‑9任一项所述的交叉变量数据的生成方法。权 利 要 求 书 2/2 页 3 CN 115062196 A 3

.PDF文档 专利 交叉变量数据的生成方法、设备和存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 交叉变量数据的生成方法、设备和存储介质 第 1 页 专利 交叉变量数据的生成方法、设备和存储介质 第 2 页 专利 交叉变量数据的生成方法、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:21:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。