全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210682477.7 (22)申请日 2022.06.16 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 杨翰章 吴育人 庄伯金  (74)专利代理 机构 北京中巡通大知识产权代理 有限公司 1 1703 专利代理师 李宏德 (51)Int.Cl. G06Q 40/02(2012.01) G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于端到端模型的行为逾期预测方法、 系 统、 设备和介质 (57)摘要 本发明提供一种基于端到端模型的行为逾 期预测方法、 系统、 设备和介质, 设计合理, 特征 提取准确, 避免了错误累计, 预测准确率高。 所述 预测方法包括, 获取面审过程中坐席和待审客户 的对话文本, 对 所述对话文本预处理为问答集合 形式, 得到输入文本; 利用依次预训练和微调训 练后的语言模型BERT, 对所述输入文本进行语义 特征提取, 得到输入文本中问答句对应的句向 量; 利用训练好的双向循环神经网络Bi ‑GRU对所 述句向量进行时序特征提取, 得到输出向量, 所 述输出向量通过Bi ‑GRU模型的输出层得到所述 待审客户逾期的预测概率值; 根据所述的预测概 率值预测所述待审核客户是否为逾期客户。 权利要求书2页 说明书11页 附图5页 CN 114926272 A 2022.08.19 CN 114926272 A 1.基于端到端模型的行为逾期预测方法, 其特 征在于, 包括, 获取行为面审过程中坐席和待审客户的对话文本, 对所述对话文本预处理为问答句集 合形式, 得到 输入文本; 将所述输入文本的问答句中的汉字向量化, 得到汉字输入向量; 所述汉字输入向量融 合所述汉字对应的拼音序列、 字形序列、 字符序列和位置序列; 利用训练后的语言模型, 对所述汉字输入向量表示的问答句进行语义特征提取, 得到 与所述问答句对应的句向量; 利用训练好的双向循环神经网络Bi ‑GRU对所述句向量进行时序特征提取, 得到输出向 量; 通过Bi ‑GRU模型的输出层对所述输出向量进行归一化处理, 得到所述待审客户行为逾 期的预测概 率值; 根据所述的预测概 率值预测所述待审核客户是否为行为逾期客户。 2.根据权利要求1所述的基于端到端模型的行为逾期预测方法, 其特征在于, 所述利用 训练好的双向循环神经网络Bi ‑GRU对所述句向量进行时序特 征提取, 包括, 根据最大问答句数量的数量设定值, 将输入文本中的问答句数量进行对齐, 按照问答 句的顺序, 将超出数量设定值的进行删除, 不足的进行占位符填充, 得到数量对齐输入文 本; 利用Bi‑GRU模型对所述数量对齐输入文本对应的句向量, 进行时序特征提取, 从正序 及逆序两个角度挖掘并整合句向量的时序特征, 得到输出向量, 用于送入Bi ‑GRU模型的输 出层得到所述待审客户逾期的预测概 率值。 3.根据权利要求1所述的基于端到端模型的行为逾期预测方法, 其特征在于, 所述利用 训练后的语言模型, 对所述汉字输入向量表示的问答句进行语义特征提取, 得到与所述问 答句对应的句向量, 包括, 根据最大问答句长度的长度设定值, 将输入文本中的问答句长度进行对齐, 将超出长 度设定值的进行删除, 不足的进行 特殊符填充, 得到 长度对齐输入文本; 利用语言模型对所述长度对齐输入文本对应的问答句, 进行语义特征提取, 得到输入 文本中问答句对应的句向量。 4.根据权利要求1所述的基于端到端模型的行为逾期预测方法, 其特征在于, 所述语言 模型的训练, 包括依次进行的预训练和微调训练; 所述预训练, 利用无监 督中文文本通过随机掩码进行训练; 所述微调训练, 利用真实行为 面审过程中的对话文本通过如下掩码方法进行训练, 若输入文本的问答句中不存在字符错误, 则采用随机掩码, 利用真实面审过程的对话 文本进行微调训练; 若输入文本的问答句中存在字符错误, 则将问答句中的错误字符全部使用所述错误字 符本身进行掩码, 并将预测目标设置为正确字符; 同时将部分的正确字符使用所述正确字 符本身进行掩码, 并将预测目标设为所述 正确字符本身。 5.根据权利要求1所述的基于端到端模型的行为逾期预测方法, 其特征在于, 所述将所 述输入文本的问答句中的汉字向量 化, 得到汉字 输入向量, 包括, 将输入文本的问答句中的汉字, 转化为罗马化字的字符序列, 加入汉字对应的音调, 得 到拼音序列;权 利 要 求 书 1/2 页 2 CN 114926272 A 2将输入文本的问答句中的汉字对应转 化为字形序列和字符序列; 将所述的拼音序列、 字形序列和字符序列拼接到一起, 并且经过一个全连接层处理, 得 到问答句中的汉字对应的融合嵌入序列; 将所述融合嵌入序列和位置序列进行融合, 得到汉字 输入向量。 6.根据权利要求1所述的基于端到端模型的行为逾期预测方法, 其特征在于, 所述训练 好的双向循环神经网络Bi ‑GRU, 包括利用Focal  Loss进行损失计算和训练的步骤, 所述 Focal Loss表示如下, 其中, y′表示预测概率值, α表示预设的正负样本权重, γ表示预设的难易样本权重, 1 表示正样本, 0表示负 样本, Lfl表示Focal  Loss损失函数。 7.根据权利要求1所述的基于端到端模型的行为逾期预测方法, 其特征在于, 所述训练 好的双向循环神经网络Bi ‑GRU, 包括采用网格搜索所Bi ‑GRU模型参数进行调整的步骤, 所 述参数至少包括学习率或批处 理数量。 8.基于端到端模型的行为逾期预测系统, 其特 征在于, 包括, 预处理模块, 用于获取行为面审过程中坐席和待审客户的对话文本, 对所述对话文本 预处理为问答句集 合形式, 得到 输入文本; 向量化模块, 用于将所述输入文本的问答句中的汉字向量化, 得到汉字输入向量; 所述 汉字输入向量融合所述汉字对应的拼音序列、 字形序列、 字符序列和位置序列; 第一语义提取模块, 用于利用训练后的语言模型, 对所述汉字输入向量表示的问答句 进行语义特 征提取, 得到与所述问答句对应的句向量; 第二语义提取模块, 用于利用训练好的双向循环神经网络Bi ‑GRU对所述句向量进行时 序特征提取, 得到输出向量; 通过Bi ‑GRU模型的输出层 对所述输出向量进 行归一化处理, 得 到所述待审客户行为逾期的预测概 率值; 预测模块, 用于根据所述的预测概 率值预测所述待审核客户是否为行为逾期客户。 9.一种计算机设备, 其特 征在于, 包括: 存储器, 用于存 储计算机程序; 处理器, 用于执行所述计算机程序时实现如权利要求1至7中任一项所述的基于端到端 模型的行为逾期预测方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至7中任一项 所述的基于端到端模 型的行为逾期预测方法。权 利 要 求 书 2/2 页 3 CN 114926272 A 3

.PDF文档 专利 基于端到端模型的行为逾期预测方法、系统、设备和介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于端到端模型的行为逾期预测方法、系统、设备和介质 第 1 页 专利 基于端到端模型的行为逾期预测方法、系统、设备和介质 第 2 页 专利 基于端到端模型的行为逾期预测方法、系统、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:22:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。