全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210711691.0 (22)申请日 2022.06.22 (71)申请人 四川新网银行股份有限公司 地址 610094 四川省成 都市成都高新区吉 泰三路8号1栋1单 元26楼1-8号 (72)发明人 徐天宇 刘振 李胜领  (74)专利代理 机构 成都智言知识产权代理有限 公司 51282 专利代理师 蒋秀清 (51)Int.Cl. G06Q 40/02(2012.01) G06F 17/18(2006.01) (54)发明名称 一种信贷风险规则自动构建方法 (57)摘要 本发明涉及金融科技领域, 尤其涉及一种信 贷风险规则自动构建方法。 一方面, 本发明通过 特征预分箱、 特征预定性、 数值及类别特征独立 优化算法和梯度调整等技术重构了生物统计领 域PRIM算 法的逻辑, 使得优 化后的CRE ‑PRIM算法 更适用于风险规则发现领域。 另 一方面, 本发明 改变了传统PRIM模型的使用场景: 一、 尽量减小 特征组合数量l, 充分利用了CRE ‑PRIM算法在小 特征维度时性能优、 速度快且计算速度对特征个 数不敏感的特性, 增强鲁棒性、 提升算法速度; 二、 在规则挖掘流程中进行人机交互, 实现经验 与数据信息的权衡。 本发明在规则挖掘效果和速 度上有明显优势, 为信贷风险策略的自动化数据 挖掘提供了全新的技 术。 权利要求书2页 说明书6页 附图2页 CN 115222508 A 2022.10.21 CN 115222508 A 1.一种信贷风险规则自动构建方法, 其特 征在于, 包括以下步骤: 步骤1: 根据信贷客户的历史风险表现数据、 人行数据和三方数据, 构建含逾期标签的 训练样本 集D和测试样本集 K, 其中的人行和三方数据包含m1个数值特征和m2个类别特征; 定 义算法所需的超参数: 分位数分箱数目N、 特征组合数量l、 规则允许的最小样本数α1、 类别 特征的有效划分的最小样本数α2; 步骤2: 对训练样本集D中的数值特征按照分位数分箱数目N进行分箱, 训练样本集D中 各类别特征的有效样本数小于α2的类别统一为空值, 得到预分类矩阵W; 计算每个数值特征 的KS值, 并根据计算时的中间变量正负对每个数值型特征分别定性为 1或‑1, 得到数值变量 的m1维定性向量E; 最后, 根据逾期样本浓度由低到高的顺序排列类别特征的类别值、 根据 定性向量排列各数值特征 的分箱值, 分别得到数值特征 的备选剔除区域列表A和类别特征 的备选剔除区域列表B; 步骤3: 特征组合数量l下, 遍历所有特征的全部特征组合; 遍历时, 将规则允许的最小 样本数α1、 类别特征的有效划分的最小样本数α2、 预分类矩阵W、 数值 特征的备选剔除区域列 表A、 类别特征的备选剔除区域列表B和逾期标签向量y作为入参, 采用CRE ‑PRIM算法, 遍历 结束后得到目标函数值 排序最高的前20个特 征组合及其对应的风险规则策略; 步骤4: 策略分析师对排序 前20的风险策略合理性和风险逻辑进行人为判断, 并选择部 分符合经验 且lift值大于2.5的特 征组合; 步骤5: 以lift指标作为目标函数, 在规则最小样本数大于α1的约束下, 对步骤4中筛选 出的特征组合重新进行阈值遍历, 并生成各个特 征组合下最优的风险策略; 步骤6: 选择测试样本集K对步骤5中得到的风险策略进行验证, 确定风险策略的稳定性 以及高效性符合要求后, 决策引擎上线风险策略。 2.根据权利要求1所述的一种信贷风险规则自动构建方法, 其特征在于, 所述步骤3中 每个数值变量的KS值的计算公式如下: KS值=max(|TPR‑FPR|); 所述中间变量的计算公式如下: midi=TPRi‑FPRi, i=1,……,m1; 其中m1为数值特征个数, TPR是正确预测为坏的样本占实际为坏的样本比率, 即真阳率; FPR是错误预测为坏的样本占实际为好的样本比率, 即伪阳率; TPRi和FPRi为取得KS值时每 个数值特 征对应的真阳率和伪阴率。 3.根据权利要求1所述的一种信贷风险规则自动构建方法, 其特征在于, 步骤3中所述 的CRE‑PRIM算法包括以下步骤: 步骤A: 涉及 的超参数: 规则允许的最小样本数α1、 类别特征的有效划分的最小样本数 α2、 维度为l的特征组合(l∈{2,3,4}); 涉及的数据: 预分类矩阵数据W、 数值特征的备选剔除区域列表A、 类别特征的备选剔除 区域列表B和逾期标签向量y; 步骤B: 规则阈值迭代: 首先, 定义初 始剩余样本集为D1=训练样本集D, 假 设迭代次数为 第k次时, 剩余样本 集为Dk; 则剔除区域dk可选择的范围由两部分组成: 其一, 列表A中相应数 值特征的各自排序第一的分箱值; 其二, 列表B中相应类别特征的各自排序前二的类别标权 利 要 求 书 1/2 页 2 CN 115222508 A 2签, 即剔除区域 其中k1和k2分别为数值特征和类别特征的备选区 域个数, an(n∈{1,…k1})和bm(m∈{1,…k2})分别代表各数值特征和各类别特征的备选区 域; 设定Dk+1=Dk‑dk, 在备选区域内选择最优的dk使目标函数最小, 目标函数为: s.t.|Dk+1|≥α1, |Dk+1|代表Dk+1中的样本数量, yi(n∈{1,…,|Dk+1|})代表样本对应的逾期标签值, 逾期为1, 正常为0; 由于f(Dk+1)的分母 为常数, 因此 该优化等价于以下 形式; s.t.|Dk‑dk|≥α1 且 最后, 在列表A或者列表B中剔除掉dk后, 令新的剩余样本集为Dk+1=Dk‑dk, 并重复迭代 直至约束条件|Dk‑dk|≥α1无法满足为止, 并将迭代中目标函数值 最大值作为输出 结果。权 利 要 求 书 2/2 页 3 CN 115222508 A 3

.PDF文档 专利 一种信贷风险规则自动构建方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种信贷风险规则自动构建方法 第 1 页 专利 一种信贷风险规则自动构建方法 第 2 页 专利 一种信贷风险规则自动构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:17:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。