全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210669118.8 (22)申请日 2022.06.14 (71)申请人 蚂蚁区块链科技 (上海) 有限公司 地址 200010 上海市黄浦区外马路618号8 层803室 (72)发明人 韩佳星  (74)专利代理 机构 北京亿腾知识产权代理事务 所(普通合伙) 11309 专利代理师 孙欣欣 周良玉 (51)Int.Cl. G06K 9/62(2022.01) G06N 5/00(2006.01) G06Q 10/06(2012.01) G06Q 40/02(2012.01) (54)发明名称 风控模型训练、 预测风险类别的方法和装置 (57)摘要 本说明书实施例提供一种风控模型训练、 预 测风险类别的方法和装置, 风控模 型训练方法包 括: 获取各个第一训练样本, 第一训练样本包括 业务对象的属性特征对应的第一特征值, 以及其 是否具有业务风险的类别标签; 确定其场景特征 对应的第二特征值, 将第二特征值添加到对应的 第一训练样本, 形成第二训练样本; 根据各个第 二训练样 本, 通过节点分裂的方式构建第一决策 树, 针对当前节点进行分裂的过程包括: 对于当 前节点的多个备选分裂条件中任一分裂条件, 依 照该分裂条件的分裂纯度, 进行分裂; 在分裂过 程中将场景特征视为类别特征; 基于第一决策 树, 确定用于对业务对象分类的风控模型。 能够 简化模型体系的复杂程度, 并且使得模型具有较 佳的性能。 权利要求书3页 说明书11页 附图5页 CN 114997317 A 2022.09.02 CN 114997317 A 1.一种适用于多场景的风控 模型训练方法, 所述方法包括: 获取第一样本集中包括的各个第一训练样本, 其中, 任一所述第一训练样本包括单个 业务对象的属性特 征对应的第一特 征值, 以及该业 务对象是否具有业 务风险的类别标签; 根据单个业务对象所在的业务场景, 确定其场景特征对应的第二特征值, 将所述第二 特征值添加到对应的第一训练样本, 形成第二训练样本; 根据各个第二训练样本形成的第二样本集, 通过节点分裂的方式构建第一决策树, 其 中针对任意的当前节 点进行分裂的过程包括: 对于 当前节点的多个备选分裂条件中任一分 裂条件, 依照该分裂条件的分裂纯度, 对当前节点进行分裂; 其中, 在分裂过程中将所述场 景特征视为类别特 征; 基于所述第一决策树, 确定用于对业 务对象分类的风控 模型。 2.根据权利要求1所述的方法, 其中, 针对 任意的当前节点进行分裂的过程还 包括: 根据落入当前节点的当前样本集中, 各业务对象的第一特征值和第二特征值, 确定所 述多个备选分裂条件。 3.根据权利要求2所述的方法, 其中, 所述属性特征包括数值型的多项属性特征; 确定 所述多个备选分裂条件, 包括: 枚举所述当前样本集中, 所述多项属性特征具有的可能取 值, 将各可能取值离散化成k个整 数值, 将一项属性特征与该项属性特征的一个整 数值的组 合作为一个备选分裂条件。 4.根据权利要求2所述的方法, 其中, 所述确定所述多个备选分裂条件, 还 包括: 枚举所述当前样本集中, 所述场景特征具有的可能取值, 将各可能取值中的至少两个 进行组合得到若干取值集合, 将所述场景特征与一个取值集合的组合作为一个备选 分裂条 件。 5.根据权利要求1所述的方法, 其中, 针对 任意的当前节点进行分裂的过程还 包括: 根据当前节点对应的当前样本集的样本纯度, 所述两个子节点分别对应的两个样本子 集的样本纯度, 确定该分裂条件的分裂纯度。 6.根据权利要求5所述的方法, 其中, 所述样本纯度基于以下指标之一而确定: 信 息熵, 基尼系数。 7.根据权利要求5所述的方法, 其中, 所述确定该分裂条件的分裂纯度, 具体包括: 以所述两个样本子集各自的样本数目与所述当前样本集的样本数目的比例为各自的 权重, 对所述两个样本 子集的样本纯度进行加权求和, 得到和值; 基于所述当前样本集的样本纯度与所述和值之差, 确定该分裂条件的分裂纯度。 8.根据权利要求1 ‑7中任一项所述的方法, 其中, 所述业务对象包括以下之一: 用户、 操 作事件、 交易、 业 务申请请求。 9.根据权利要求1 ‑7中任一项所述的方法, 其中, 所述场景特征对应的场景包括如下任 意一种: 中大企业信贷场景、 小微企业信贷场景、 中长期信贷场景、 短期信贷场景。 10.一种预测风险类别的方法, 所述方法包括: 获取目标样本, 其中, 所述目标样本包括目标业 务对象的属性特 征对应的第一特 征值; 根据所述目标业 务对象所在的业 务场景, 确定其场景 特征对应的第二特 征值; 将所述第一特征值和所述第 二特征值输入权利要求1所述的方法训练后的所述风控模权 利 要 求 书 1/3 页 2 CN 114997317 A 2型, 通过所述风控模型输出所述 目标业务对 象的风险类别, 所述风险类别用于指示所述 目 标业务对象是否具有业 务风险。 11.根据权利要求10所述的方法, 其中, 所述第 二特征值为参与训练所述风控模型的特 征值或未参与训练所述 风控模型的特 征值。 12.一种预测风险类别的方法, 所述方法包括: 获取目标样本, 其中, 所述目标样本包括目标业 务对象的属性特 征对应的第一特 征值; 将所述第一特征值输入权利要求1所述的方法训练后的所述风控模型, 通过所述风控 模型输出所述目标业务对象的风险类别, 所述风险类别用于指示所述目标业务对象是否具 有业务风险。 13.一种适用于多场景的风控 模型训练装置, 所述装置包括: 获取单元, 用于获取第一样本集中包括的各个第 一训练样本, 其中, 任一所述第 一训练 样本包括单个业务对象的属性特征对应的第一特征值, 以及该业务对象是否具有业务风险 的类别标签; 添加单元, 用于根据单个业务对象所在的业务场景, 确定其场景特征对应的第二特征 值, 将所述第二特征值添加到对应的所述获取单元获取 的第一训练样本, 形成第二训练样 本; 构建单元, 用于根据所述添加单元得到的各个第二训练样本形成的第二样本集, 通过 节点分裂的方式构建第一决策树, 其中针对任意的当前节点进行分裂的过程包括: 对于当 前节点的多个备选分裂条件中任一分裂条件, 依照该分裂条件的分裂纯度, 对当前节点进 行分裂; 其中, 在分裂过程中将所述场景 特征视为类别特 征; 确定单元, 用于基于所述构建单元得到的第一决策树, 确定用于对业务对象分类的风 控模型。 14.根据权利要求13所述的装置, 其中, 针对 任意的当前节点进行分裂的过程还 包括: 根据落入当前节点的当前样本集中, 各业务对象的第一特征值和第二特征值, 确定所 述多个备选分裂条件。 15.根据权利要求14所述的装置, 其中, 所述属性特征包括数值型的多项属性特征; 确 定所述多个备选 分裂条件, 包括: 枚举所述当前样本集中, 所述多项属性特征具有的可能取 值, 将各可能取值离散化成k个整 数值, 将一项属性特征与该项属性特征的一个整 数值的组 合作为一个备选分裂条件。 16.根据权利要求14所述的装置, 其中, 所述确定所述多个备选分裂条件, 还 包括: 枚举所述当前样本集中, 所述场景特征具有的可能取值, 将各可能取值中的至少两个 进行组合得到若干取值集合, 将所述场景特征与一个取值集合的组合作为一个备选 分裂条 件。 17.根据权利要求13所述的装置, 其中, 针对 任意的当前节点进行分裂的过程还 包括: 根据当前节点对应的当前样本集的样本纯度, 所述两个子节点分别对应的两个样本子 集的样本纯度, 确定该分裂条件的分裂纯度。 18.一种预测风险类别的装置, 所述装置包括: 获取单元, 用于获取目标样本, 其中, 所述目标样本包括目标业务对象的属性特征对应 的第一特 征值;权 利 要 求 书 2/3 页 3 CN 114997317 A 3

.PDF文档 专利 风控模型训练、预测风险类别的方法和装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 风控模型训练、预测风险类别的方法和装置 第 1 页 专利 风控模型训练、预测风险类别的方法和装置 第 2 页 专利 风控模型训练、预测风险类别的方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:25:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。