全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211029429.4 (22)申请日 2022.08.25 (71)申请人 山东大学 地址 250199 山东省济南市历城区山大南 路27号 (72)发明人 王天弘 于珍 刘刚 赵娜娜  何嘉诚  (74)专利代理 机构 济南金迪知识产权代理有限 公司 37219 专利代理师 杨树云 (51)Int.Cl. G06Q 30/02(2012.01) G06N 20/10(2019.01) (54)发明名称 一种基于机器学习的客户流失预警方法及 系统 (57)摘要 本发明涉及一种基于机器学习的客户流失 预警方法及系统, 包括: 获取数据集; 对 数据集中 的数据进行预处理; 构建客户流失预警模型, 并 通过预处理后的数据进行训练, 得到训练好的客 户流失预警模 型; 将待检测的数据通过所述预处 理后输入训练好的客户流失预警模 型, 得到客户 流失预警结果。 本发明通过对企业大量不规范客 户进店信息数据进行预处理, 并采用决策树、 SVM、 随机森林和 GA‑CART算法, 构建流失预警模 型, 基于Pyt hon‑Tkinter进行可视化制作操作软 件, 有效地协助企业人员进行客户流失预警, 制 定的挽救措施。 权利要求书3页 说明书10页 附图3页 CN 115526652 A 2022.12.27 CN 115526652 A 1.一种基于 机器学习的客户流失预警方法, 其特 征在于, 包括: 获取数据集; 对数据集中的数据进行 预处理; 构建客户流失预警模型, 并通过预处理后的数据进行训练, 得到训练好的客户流失预 警模型; 将待检测的数据通过所述预处理后输入训练好的客户流失预警模型, 得到客户流失预 警结果。 2.根据权利要求1所述的一种基于机器学习的客户流失预警方法, 其特征在于, 通过 决 策树、 SVM、 随机森林或GA ‑CART算法构建流失预警模型。 3.根据权利要求2所述的一种基于机器学习的客户流失预警方法, 其特征在于, 通过 决 策树构建流失预警模型, 包括: 流失预警模型为决策树模型; 进一步优选的, 决策树模型中, 采用CART决策树算法, 假设有n个样本集的数据集为D, 其中, 有k个不同的属性, 每个样本属于对应类的概率为pk, 数据集D的纯度用GINI指数G(D) 来衡量, 如式(I)所示: 对于数据集D, 假设选取特征A作为分支特征, 根据特征A的取值将数据集D划分为D1和 D2, D1为A=a1的子样本, D2为A≠a1的子样本, 在选取特征A作为分支特征条件下数据集D的 GINI指数G(D,A)如式(I I)所示: Gini(D1)和Gini(D2)分别指数据集D1和D1的样本GI NI指数。 4.根据权利要求2所述的一种基于机器学习的客户流失预警方法, 其特征在于, 通过 SVM构建流失预警模 型, 包括: 运用python中的SVM库的svm函数构建SVM模型, 流失预警模型 为SVM模型。 5.根据权利要求2所述的一种基于机器学习的客户流失预警方法, 其特征在于, 通过随 机森林构建流失预 警模型, 包括: 运用python中的Sklearn库的Deci sionTreeClassifier函 数构建随机森林模型, 流失预警模型为随机森林模型。 6.根据权利要求2所述的一种基于机器学习的客户流失预警方法, 其特征在于, 通过 GA‑CART算法构建流失预警模型, 包括: (i)数据加载 对预处理后的数据进行随机划分, 划分为训练集和 测试集, 并获得客户流失的标签; (ii)初始化种群 根据4S店客户特征维度来设置染色体长度; 4S店客户特征维度、 种群规模大小及染色 体长度是相同的; (iii)计算初始化种群适应度值, 并选取最大适应度值对应的染色体; 迭代执行, 如果是第一次迭代, 则最大适应度值即为本次迭代的流失预警模型的召回 率; 否则, 则和上一次迭代的最大召回率进行对比, 选取较大召回率值作为最大适应度值;权 利 要 求 书 1/3 页 2 CN 115526652 A 2每一次迭代的过程中都会存在本次迭代所对应的基因序列, 如果本次迭代的召回率值进 行 了变化, 则更新 一次最大召回率所对应的基因序列, 反 之则不更新; (iv)以适应度值为指标, 采用轮盘赌方法选择下一代染色体, 并进行交叉和变异操作; 具体包括: 1)采用轮 盘赌方法选择 下一代染色体: 首先, 采用轮盘赌选择, 以召回率作为适应度函数的适应值, 计算每个个体适应度与所 有个体适应度之和的比值, 即每个个体被选中概率P(xi); x为个体数的集合, xi表示x集合中 的第i个个体, f(xi)表示个体的适应度值, n 为个体的数量, 如式(I II)所示: 然后, 计算出累积概 率Q(xi), 如公式(IV)所示: 随机生成一个数组m, 数组中的元素取值范围在0和1之间, 将数组中的元素按从小到大 的方式进行排序; 若累积概率Q(xi)大于数组中的元素m[i], 则个体x(i)被选中, 若小于m [i], 则比较下一个 个体x(i+1)直至 选出一个 个体为止; 2)交叉和变异操作: 交叉是指单点交叉, 单点交叉的实现步骤为: 首先, 将父代染色体进行存储, 选择一个父代染色体, 随机产生一个0 ‑1的随机值, 如果 小于设定的交叉概 率0.8, 则该 父代染色体进行交叉; 然后, 随机在种群中选择一个个体, 随机生成一个0到26的数字, 即为染色体交叉的位 置, 将父代染色体和选择后的种群染色体在选 定的位置进行基因 交换, 即完成单点交叉; 重复以上 单点交叉的实现步骤, 遍历所有的父代染色体; 变异的实现步骤为: 对于交叉变异后的种群, 选取一个个体, 随机产生一个0和1之间的 数, 如果小于变异的概率0.09, 则进行变异, 随机生成一个0到26的数字, 作为变异的位置, 再将该染色体该位置上的0 置换成1或1置换成0; 重复该 过程, 直到遍历所有的个 体; (v)重复执行步骤(iii)至步骤(iv)直至迭代若干次后停止, 得到构 建好的流失预警模 型。 7.根据权利要求1所述的一种基于机器学习的客户流失预警方法, 其特征在于, 获取数 据集, 包括: 数据集是指4S店客户进店信息数据; 预处理包括汇总处 理以及异常值、 缺失值、 归一 化处理和样本不均衡处 理; 进一步优选的, 汇总处 理, 包括: Step1: 删除4S店客户进店信息数据即原始数据D中的无关信息特征, 对其它特征按编 号命名; Step2: 筛选出底盘号的个数, 通过底盘号为索引来检索原始数据D中客户信息, 每个底 盘号得到相应的客户信息词条; Step3: 将检索到的客户信息进行处理, 筛选出最小进店日期、 最大进店日期、 最大行驶 里程、 最小购车日期、 最大累计维修次数、 最大年龄、 最大性别、 最大客户级别、 最大本公司权 利 要 求 书 2/3 页 3 CN 115526652 A 3

.PDF文档 专利 一种基于机器学习的客户流失预警方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于机器学习的客户流失预警方法及系统 第 1 页 专利 一种基于机器学习的客户流失预警方法及系统 第 2 页 专利 一种基于机器学习的客户流失预警方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:27:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。