全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210721384.0 (22)申请日 2022.06.24 (71)申请人 数库 (上海) 科技有限公司 地址 201112 上海市闵行区陈行路238 8号9 号楼8层801室 (72)发明人 钱晓军 万军  (74)专利代理 机构 上海十蕙一兰知识产权代理 有限公司 313 31 专利代理师 刘秋兰 (51)Int.Cl. G06Q 40/02(2012.01) G06Q 40/06(2012.01) G06F 16/9535(2019.01) G06F 17/18(2006.01) G06K 9/62(2022.01) (54)发明名称 基于公开数据对中小微企业评价的方法及 相关设备 (57)摘要 本发明属于数据处理技术领域, 具体涉及一 种基于公开数据对中小微企业评价的方法及相 关设备。 一种基于公开数据对中小微企业评价的 方法, 包括: 获取若干企业的企业数据, 企业数据 包含若干变量及对应的变分值; 将所有企业的所 有变量以变量分值进行分箱, 得到若干分箱后的 变量及对应的变量分值, 计算每个变量在每个分 箱中的证据权重; 将单个企业的所有变量以变量 分值和证据权重进行加权求和, 得到单个企业的 评分信息。 本发明能实现对小微企业多维度评 价, 评价信息可为投资机构提供投资参考, 有利 于提高投资效率, 降低投资风险, 为小微企业解 决融资难等问题。 权利要求书3页 说明书10页 附图1页 CN 115271907 A 2022.11.01 CN 115271907 A 1.一种基于公开数据对中小微企业评价的方法, 其特 征在于, 包括: 获取若干企业的企业数据, 所述企业数据包 含若干变量及对应的变分值; 将所有企业的所有变量以所述变量分值进行分箱, 得到若干分箱后的变量及对应的变 量分值, 计算每 个变量在每 个分箱中的证据权 重; 将单个企业的所有变量以所述变量分值和所述证据权重进行加权求和, 得到单个所述 企业的评分信息 。 2.如权利要求1所述的基于公开数据对中小微企业评价的方法, 其特征在于, 所述获取 若干企业的企业数据, 所述企业数据包 含若干变量及对应的变分值, 包括: 获取若干企业的原 始数据, 对所述原 始数据中的脏数据进行清洗; 整理原始数据, 得到变量及对应的变量数据; 对所述变量数据进行归一 化处理, 得到每 个变量的变量分值。 3.如权利要求2所述的基于公开数据对中小微企业评价的方法, 其特征在于, 所述脏数 据包括缺 失值或异常值, 在 对所述缺 失值或异常值进 行清洗时, 采用填充0值或当空置NA处 理。 4.如权利要求1所述的基于公开数据对中小微企业评价的方法, 其特征在于, 所述将所 有企业的所有变量以所述变量分值进行分箱, 包括: 将所有的所述变量分值按从小到大的顺序排列; 按照所述变量分值平均跨度 范围进行划分为若干等距的区间, 每个所述 区间作为一个 分箱。 5.如权利要求1所述的基于公开数据对中小微企业评价的方法, 其特征在于, 所述计算 每个变量在每 个分箱中的证据权 重, 包括: 定义差企业的概率表示为p, 则好企业的概率表示为1 ‑p, 将所述变量分值作为自变量, 采用预设的逻辑回归模型对每个所述企业进行二分类, 确定出所有企业的企业信用, 所述 企业信用为差企业或好企业; 对单个变量计算在单个分箱中的证据权 重WOE: 其中, WOEi为单个变量在第i个分箱中的证据权重; pi1为第i个分箱中差企业占所有差 企业比例; pi0为第i个分箱中好企业占所有好企业比例; 为第i个分箱中差企业数量; 为第i个分箱中好企业数量; 为所有差企业数量; 为所有好企业数量。 6.如权利要求5所述的基于公开数据对中小微企业评价的方法, 其特征在于, 在将所述 变量分值作为自变量, 采用预设的逻辑回归模型对每个所述企业进行二分类时, 还计算所 述自变量的p ‑value值, 若所述p ‑value值大于预设的假定阈值, 则筛除所述自变量, 再将剩 下的自变量采用所述逻辑回归 模型进行二分类。 7.如权利要求5所述的基于公开数据对中小微企业评价的方法, 其特征在于, 在确定出 所有企业的企业信用后, 还计算所述逻辑回归模型的AUC值, 当所述AUC值小于0.5时, 通过 计算单个变量信息价值的方法来筛选预测性能强的变量, 剩下的变量作为目标变量重新采 用所述逻辑回归 模型进行二分类。权 利 要 求 书 1/3 页 2 CN 115271907 A 28.如权利要求5所述的基于公开数据对中小微企业评价的方法, 其特征在于, 在确定出 所有企业的企业信用后, 还计算所述逻辑回归模型的KS值, 当所述KS值不大于0.4时, 通过 计算单个变量信息价值的方法来筛选预测性能强的变量, 剩下的变量作为目标变量重新采 用所述逻辑回归 模型进行二分类。 9.如权利要求5所述的基于公开数据对中小微企业评价的方法, 其特征在于, 所述对单 个变量计算在单个分箱中的证据权重WOE之前, 还包括通过计算单个变量的信息价值的方 法来筛选预测性能强的变量, 剩下的变量作为目标变量计算证据权 重及计算加权求和。 10.如权利要求7、 8 或9所述的基于公开数据对中小微企业评价的方法, 其特征在于, 计 算单个变量的信息价 值IV: 将单个变量的信 息价值小于预设信 息价值阈值的变量进行剔除, 剩下的变量作为目标 变量。 11.如权利要求1所述的基于公开数据对中小微企业评价的方法, 其特征在于, 所述将 单个企业的所有变量以所述变量分值和所述证据权重进行加权求和, 得到单个所述 企业的 评分信息, 包括采用如下公式计算评分信息Score: 其中, A‑B θ0为预设的基础分数, A和B均为预设的常数; θi为第i个变量的变量 分值; wij为 第i个变量所在的第j个分箱的证据权重; δij是0或1的逻辑变量, 当δij=1代表第i个变量取 第j个分箱, 当δij=0代表第i个变量不取第j个分箱。 12.如权利要求11所述的基于公开数据对中小微企业评价的方法, 其特征在于, 若单个 企业的所述评 分信息高于预设的最高评 分阈值, 则将所述评分信息重置为所述最高评 分阈 值; 若单个企业的所述评分信 息低于预设的最底评分阈值, 则将所述评分信 息重置为所述 最底评分阈值。 13.如权利要求1至12中任意一项所述的基于公开数据对中小微企业评价的方法, 其特 征在于, 还包括将所述评分信息生成企业评分结果并输出, 所述将所述评分信息生成企业 评分结果并输出, 包括: 由所述评分信息公式可知, 单个企业的单个 变量的评分 分值为: ‑B( θiwi1δi1+θiwi2δi2...+θiwijδij) 将单个企业的变量划分为预设的若干维度, 将单个所述维度中所有变量的评分分值相 加得到单个所述维度对应的维度总分; 将所有企业及对应的评分信息、 维度和维度总分作为企业评分结果并输出。 14.如权利要求13所述的基于公开数据对中小微企业评价的方法, 其特征在于, 还包 括: 获取待评价企业的目标数据, 所述目标数据包含若干预设的目标变量及对应的目标变权 利 要 求 书 2/3 页 3 CN 115271907 A 3

.PDF文档 专利 基于公开数据对中小微企业评价的方法及相关设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于公开数据对中小微企业评价的方法及相关设备 第 1 页 专利 基于公开数据对中小微企业评价的方法及相关设备 第 2 页 专利 基于公开数据对中小微企业评价的方法及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:22:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。