全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210572209.X (22)申请日 2022.05.24 (71)申请人 上海蓝书信息科技有限公司 地址 200135 上海市浦东 新区中国 (上海) 自由贸易试验区浦东大道 2123号三层 (72)发明人 涂若欣 唐守旭 苏世前 田立民  杨青相 韩科森 张元鹏 张磊  (74)专利代理 机构 北京市京师律师事务所 11665 专利代理师 黄熊 (51)Int.Cl. G06Q 40/02(2012.01) G06Q 10/10(2012.01) G06Q 30/06(2012.01) (54)发明名称 一种在稀疏样本中解决正负样本不均衡问 题的方法 (57)摘要 本发明实施例公开了一种在稀疏样本中解 决正负样本不均衡问题的方法, 包括以下步骤: 对被风控系统拒绝的订单数据DATA_B中的每个 样本打分; 按预设分数段划分所述DATA _B中的样 本; 将所述被风控系统拒绝的订单数据DATA _B中 某一分数段的样本作为补充坏样本DATA_B_BAD 加入至被风控系统接受的订单数据DATA _A中, 形 成新的订单数据DATA_C; 用所述新的订单数据 DATA_C训练出新的审批模型Model_New, 以现有 数据中的部分样本补充到 现有样本中, 解决了汽 车金融逾期风险控制场景下正负样本不均衡问 题, 同时在没有增加额外人工/外部数据成本的 条件下, 提升模型指标, 客户分层更明确, 且有效 降低逾期率。 权利要求书1页 说明书3页 附图3页 CN 114862558 A 2022.08.05 CN 114862558 A 1.一种在稀疏样本中解决正负 样本不均衡问题的方法, 其特 征是: 包括以下步骤: 对被风控系统拒绝的订单 数据DATA_B中的每 个样本打 分; 按预设分数段划分所述DATA_B中的样本; 将所述被风控系统拒绝的订单数据DATA_B中某一分数段的样本作 为补充坏样本DATA_ B_BAD加入至被风控系统接受的订单 数据DATA_A中, 形成新的订单 数据DATA_C; 用所述新的订单 数据DATA_C训练出新的审批模型Model_New。 2.根据权利要求1所述的一种在稀疏样本中解决正负样本不均衡问题的方法, 其特征 是: 所述对被风控系统拒绝的订单 数据DATA_B中的每 个样本打 分, 具体包括: 根据所述被风控系统接受的订单 数据DATA_A训练一个普通审批模型Model_Base; 用所述普通审批模型Model_Base给所述被风控系统拒绝的订单数据DATA_B中的每个 样本打分。 3.根据权利要求2所述的一种在稀疏样本中解决正负样本不均衡问题的方法, 其特征 是: 所述按预设 分数段划分所述DATA_B中的样本, 具体包括: 用所述普通审批模型Model_Base给所述被风控系统接受的订单数据DATA_A中的每个 样本打分; 按预设分数段划分所述被风控系统接受的订单 数据DATA_A中的样本; 按所述预设 分数段划分所述被风控系统拒绝的订单 数据DATA_B中的样本 。 4.根据权利要求3所述的一种在稀疏样本中解决正负样本不均衡问题的方法, 其特征 是: 所述将所述被风控系统拒绝的订单数据DATA_B中某一分数段的样本作为补充坏样本 DATA_B_BAD加入至被风控系统接受的订单数据DATA_A中, 形成新的订单数据DATA_C, 具体 包括: 计算所述被风控系统接受的订单 数据DATA_A中的样本中每 个分数段的逾期率; 根据所述DATA_A中的样本中每个分数段的逾期率, 计算所述被风控系统拒绝的订单数 据DATA_B中每 个分数段样本的预期个数; 将所述被风控系统拒绝的订单数据DATA_B中某一分数段的样本作 为补充坏样本DATA_ B_BAD加入至被风控系统接受的订单 数据DATA_A中。 5.根据权利要求4所述的一种在稀疏样本中解决正负样本不均衡问题的方法, 其特征 是: 所述某一分数 段的样本为分数 段内分数最低的分数 段的样本 。权 利 要 求 书 1/1 页 2 CN 114862558 A 2一种在稀 疏样本中解决正负样本不均衡问题的方 法 技术领域 [0001]本发明实施例涉及样本均衡处理方法技术领域, 具体涉及一种在稀疏样本中解决 正负样本不均衡问题的方法。 背景技术 [0002]随着金融科技和人工智能的发展, 以大数据及机器学习为基础的各种模型能够有 效提升审批速度, 降低人工成本, 提高业绩并降低逾期率。 审批业务的风控模型大多使用有 监督学习模型, 其预测条件(特征)、 预测标签(目标)均要明确。 因此, 普通贷款审批模型大 多选取历史通过风控系统的订单(即有客户个人信息, 业务信息和还款行为记录的订单数 据)作为样本进行训练。 这样的样本因为经过多重漏斗筛选, 很少会出现负样本。 这种训练 样本一方太大或太小、 占比严重失衡的情况就是所描述的一种在稀疏样本情况下正负样本 不均衡的问题。 [0003]用不加处 理的稀疏样本训练模型, 有可能会发生过拟合, 影响预测能力。 [0004]现有比较通用的技 术方案主 要有两种: [0005]‑过采样(增大少数类的样本数量, 比如风控场景 下多复制出来 一些负样例)。 [0006]‑欠采样(减少多数类样本 的数量, 比如风控场景下减少一些正样例, 使比例均衡 一些)。 [0007]减少一方采样数以平衡正负样本分布会使样例不全面。 同时, 单个样本具有偶然 性, 简单的重复样本并不能使模型 学习到更全面的特 征继而有更好的应用。 [0008]通过外部数据或人工对风控系统已拒绝的用户打标签成本较高, 另外, 不同机构 提供的信贷产品结构不同(如贷款利率、 首付 等), 通常不能直接作为样本进入训练过程。 [0009]订单经过预审、 终审的多重 ‘规则+模型 ’漏斗及人工审核辅助评估客户资质。 普通 审批模型选取历史通过风控系统的订单, 如图2所示, 这样的订单拥有客户个人信息, 业务 信息和还款行为记录的订单数据, 可以作为样本进行训练, 但是此时的样本没有反映客户 全貌, 可能导 致模型预测能力不足。 发明内容 [0010]为此, 本发明实施例提供一种在稀疏样本中解决正负样本不均衡问题的方法, 以 解决现有技 术中由于样本稀疏导 致正负样本不均衡问题。 [0011]为了实现上述目的, 本发明实施例提供如下技 术方案: [0012]一种在稀疏样本中解决正负 样本不均衡问题的方法, 其特 征是: 包括以下步骤: [0013]对被风控系统拒绝的订单 数据DATA_B中的每 个样本打 分; [0014]按预设分数段划分所述DATA_B中的样本; [0015]将所述被风控系统拒绝的订单数据DATA_B中某一分数段的样本作为补充坏样本 DATA_B_BAD加入至被风控系统接受的订单 数据DATA_A中, 形成新的订单 数据DATA_C; [0016]用所述新的订单 数据DATA_C训练出新的审批模型Model_New。说 明 书 1/3 页 3 CN 114862558 A 3

.PDF文档 专利 一种在稀疏样本中解决正负样本不均衡问题的方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种在稀疏样本中解决正负样本不均衡问题的方法 第 1 页 专利 一种在稀疏样本中解决正负样本不均衡问题的方法 第 2 页 专利 一种在稀疏样本中解决正负样本不均衡问题的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:17:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。