专利一种基于机器学习的客户流失预警方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211029429.4 (22)申请日 2022.08.25 (71)申请人山东大学地址 250199 山东省济南市历城区山大南路27号 (72)发明人王天弘　于珍　刘刚　赵娜娜　何嘉诚　 (74)专利代理机构济南金迪知识产权代理有限公司 37219 专利代理师杨树云 (51)Int.Cl. G06Q 30/02(2012.01) G06N 20/10(2019.01) (54)发明名称一种基于机器学习的客户流失预警方法及系统 (57)摘要本发明涉及一种基于机器学习的客户流失预警方法及系统，包括：获取数据集；对数据集中的数据进行预处理；构建客户流失预警模型，并通过预处理后的数据进行训练，得到训练好的客户流失预警模型；将待检测的数据通过所述预处理后输入训练好的客户流失预警模型，得到客户流失预警结果。本发明通过对企业大量不规范客户进店信息数据进行预处理，并采用决策树、 SVM、随机森林和 GA‑CART算法，构建流失预警模型，基于Pyt hon‑Tkinter进行可视化制作操作软件，有效地协助企业人员进行客户流失预警，制定的挽救措施。权利要求书3页说明书10页附图3页 CN 115526652 A 2022.12.27 CN 115526652 A 1.一种基于机器学习的客户流失预警方法，其特征在于，包括：获取数据集；对数据集中的数据进行预处理；构建客户流失预警模型，并通过预处理后的数据进行训练，得到训练好的客户流失预警模型；将待检测的数据通过所述预处理后输入训练好的客户流失预警模型，得到客户流失预警结果。 2.根据权利要求1所述的一种基于机器学习的客户流失预警方法，其特征在于，通过决策树、 SVM、随机森林或GA ‑CART算法构建流失预警模型。 3.根据权利要求2所述的一种基于机器学习的客户流失预警方法，其特征在于，通过决策树构建流失预警模型，包括：流失预警模型为决策树模型；进一步优选的，决策树模型中，采用CART决策树算法，假设有n个样本集的数据集为D，其中，有k个不同的属性，每个样本属于对应类的概率为pk，数据集D的纯度用GINI指数G(D) 来衡量，如式(I)所示：对于数据集D，假设选取特征A作为分支特征，根据特征A的取值将数据集D划分为D1和 D2， D1为A＝a1的子样本， D2为A≠a1的子样本，在选取特征A作为分支特征条件下数据集D的 GINI指数G(D,A)如式(I I)所示： Gini(D1)和Gini(D2)分别指数据集D1和D1的样本GI NI指数。 4.根据权利要求2所述的一种基于机器学习的客户流失预警方法，其特征在于，通过 SVM构建流失预警模型，包括：运用python中的SVM库的svm函数构建SVM模型，流失预警模型为SVM模型。 5.根据权利要求2所述的一种基于机器学习的客户流失预警方法，其特征在于，通过随机森林构建流失预警模型，包括：运用python中的Sklearn库的Deci sionTreeClassifier函数构建随机森林模型，流失预警模型为随机森林模型。 6.根据权利要求2所述的一种基于机器学习的客户流失预警方法，其特征在于，通过 GA‑CART算法构建流失预警模型，包括： (i)数据加载对预处理后的数据进行随机划分，划分为训练集和测试集，并获得客户流失的标签； (ii)初始化种群根据4S店客户特征维度来设置染色体长度； 4S店客户特征维度、种群规模大小及染色体长度是相同的； (iii)计算初始化种群适应度值，并选取最大适应度值对应的染色体；迭代执行，如果是第一次迭代，则最大适应度值即为本次迭代的流失预警模型的召回率；否则，则和上一次迭代的最大召回率进行对比，选取较大召回率值作为最大适应度值；权　利　要　求　书 1/3 页 2 CN 115526652 A 2每一次迭代的过程中都会存在本次迭代所对应的基因序列，如果本次迭代的召回率值进行了变化，则更新一次最大召回率所对应的基因序列，反之则不更新； (iv)以适应度值为指标，采用轮盘赌方法选择下一代染色体，并进行交叉和变异操作；具体包括： 1)采用轮盘赌方法选择下一代染色体：首先，采用轮盘赌选择，以召回率作为适应度函数的适应值，计算每个个体适应度与所有个体适应度之和的比值，即每个个体被选中概率P(xi)； x为个体数的集合， xi表示x集合中的第i个个体， f(xi)表示个体的适应度值， n 为个体的数量，如式(I II)所示：然后，计算出累积概率Q(xi)，如公式(IV)所示：随机生成一个数组m，数组中的元素取值范围在0和1之间，将数组中的元素按从小到大的方式进行排序；若累积概率Q(xi)大于数组中的元素m[i]，则个体x(i)被选中，若小于m [i]，则比较下一个个体x(i+1)直至选出一个个体为止； 2)交叉和变异操作：交叉是指单点交叉，单点交叉的实现步骤为：首先，将父代染色体进行存储，选择一个父代染色体，随机产生一个0 ‑1的随机值，如果小于设定的交叉概率0.8，则该父代染色体进行交叉；然后，随机在种群中选择一个个体，随机生成一个0到26的数字，即为染色体交叉的位置，将父代染色体和选择后的种群染色体在选定的位置进行基因交换，即完成单点交叉；重复以上单点交叉的实现步骤，遍历所有的父代染色体；变异的实现步骤为：对于交叉变异后的种群，选取一个个体，随机产生一个0和1之间的数，如果小于变异的概率0.09，则进行变异，随机生成一个0到26的数字，作为变异的位置，再将该染色体该位置上的0 置换成1或1置换成0；重复该过程，直到遍历所有的个体； (v)重复执行步骤(iii)至步骤(iv)直至迭代若干次后停止，得到构建好的流失预警模型。 7.根据权利要求1所述的一种基于机器学习的客户流失预警方法，其特征在于，获取数据集，包括：数据集是指4S店客户进店信息数据；预处理包括汇总处理以及异常值、缺失值、归一化处理和样本不均衡处理；进一步优选的，汇总处理，包括： Step1：删除4S店客户进店信息数据即原始数据D中的无关信息特征，对其它特征按编号命名； Step2：筛选出底盘号的个数，通过底盘号为索引来检索原始数据D中客户信息，每个底盘号得到相应的客户信息词条； Step3：将检索到的客户信息进行处理，筛选出最小进店日期、最大进店日期、最大行驶里程、最小购车日期、最大累计维修次数、最大年龄、最大性别、最大客户级别、最大本公司权　利　要　求　书 2/3 页 3 CN 115526652 A 3

专利 一种基于机器学习的客户流失预警方法及系统

专利一种基于机器学习的客户流失预警方法及系统