(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210816439.6
(22)申请日 2022.07.12
(65)同一申请的已公布的文献号
申请公布号 CN 114881775 A
(43)申请公布日 2022.08.09
(73)专利权人 浙江君同智能科技有限责任公司
地址 310053 浙江省杭州市滨江区浦沿街
道东信大道6 6号二号楼314室
(72)发明人 韩蒙 章燕 林昶廷 王滨
董建锋 丁吉
(74)专利代理 机构 杭州钤韬知识产权代理事务
所(普通合伙) 33329
专利代理师 赵杰香
(51)Int.Cl.
G06F 17/00(2019.01)G06Q 40/02(2012.01)
G06K 9/62(2022.01)
G06N 20/20(2019.01)
审查员 王兰云
(54)发明名称
一种基于半监督集成学习的欺诈检测方法
及系统
(57)摘要
本发明公开了一种基于半监督集成学习的
欺诈检测方法及系统, 将训练样 本进行标注为正
常样本和欺诈样本, 构建孤立森 林异常检测模型
对训练样 本进行模型训练和筛选, 剔除正常样本
和欺诈样 本中的异常数据, 得到标签样本和无标
签样本, 利用改进的半监督集 成学习算法对 标签
样本进行训练, 得到训练好的半监督欺诈检测模
型, 通过该半监督欺诈检测模型对待检测的样本
进行模型识别, 并对识别结果通过异常检测模型
做进一步的异常样本剔除, 从而提高欺诈样本检
测结果的准确率, 降低检测结果的误报率。
权利要求书4页 说明书9页 附图5页
CN 114881775 B
2022.09.30
CN 114881775 B
1.一种基于半监 督集成学习的欺诈检测方法, 其特 征在于, 所述方法包括 步骤:
S1、 提取训练样本中的样本特 征, 将所述训练样本划分为 正常样本集和欺诈样本集;
S2、 分别构建第一孤立森林异常检测模型和第二孤立森林异常检测模型, 利用第一孤
立森林异常检测模型对正常样本集进 行模型训练, 以及利用第二孤立森林异常检测模型对
欺诈样本集进行模型训练, 构建得到标签数据样本集和无标签数据样本集, 并获取无标签
数据样本集中每一个样本的异常值;
S3、 根据半监督集成学习模型对所述标签数据样本集构建多个基学习器并进行训练,
每一个基学习器采用逻辑回归优化器的损失函数对各自的基学习器的参数进 行更新, 获取
得到所有更新后的基学习器的参数;
S4、 对半监督集成学习模型的损失函数进行改进, 利用无标签数据样本集中的样本异
常值进行梯度求 导以优化基学习器的参数, 得到训练好的半监 督欺诈检测模型;
S5、 根据半监 督欺诈检测模型对待检测样本进行模型识别, 输出样本检测结果;
所述步骤S2包括:
利用所述第 一孤立森林异常检测模型对正常样本集进行检测, 计算得到每个正常样本
的异常评 分, 当正常样本的异常评 分接近1时, 该样 本判断为异常样本, 反之, 判断为正常样
本;
利用所述第 二孤立森林异常检测模型对欺诈样本集进行检测, 计算每一个欺诈样本的
异常评分, 当欺诈样本的异常评分接近1时, 该样本判断为异常样本, 反之, 判断为欺诈样
本;
将正常样本集中的异常样本以及欺诈样本集中的异常样本组成无标签数据样本集, 并
记录无标签数据样本集中每一个样本的异常值;
正常样本集中除去异常样本后的所有样本以及欺诈样本集中除去异常样本后的所有
样本组成标签数据样本集;
所述步骤S4包括:
改进后的半监 督集成学习模型的损失函数V(f,L,U,a)为:
(10) ;
(11) ;
(12) ;
其中, xi为第i个输入数据, αi为第i个输入数据的异常值, Vemp (f,L)为半监督集成学习
模型在标签数据样 本集L上的经验损失, Vdiv (f,U, α )为半监督集 成学习模 型在无标签数据
样本集U和数据异常值α 上的多样性损失, d(fp,fq,U, α )为基学习器在无标签数据样本 集U和
数据异常值α 上的损失, m为基学习器个数, γ 为平衡参数, fp (xi)为第p个基学习器在第i个
输入数据情况 下输出, fq (xi)为第q个 基学习器在第i个输入数据情况 下输出;
根据无标签数据样本集中的样本异常值对改进后的半监督集成学习模型的损失函数V
(f,L,U,a), 进行求解最优化, 通过梯度求导不断优化损失值进行最小化, 将损失函数V(f,
L,U,a)中对模型参数梯度求导后的值进行反向传播, 对所有基学习器的参数进行迭代更
新, 得到一组最终基学习器参数, 进 而得到训练好的半监 督欺诈检测模型。
2.如权利要求1所述的基于半监督集成学习的欺诈检测方法, 其特征在于, 所述步骤S2权 利 要 求 书 1/4 页
2
CN 114881775 B
2包括:
S201、 从所述 正常样本集中随机 选取多个样本作为样本 子集;
S202、 从样本特征中随机抽取一个特征, 在该特征的最大特征值和最小特征值之间随
机选取一个特 征值, 以选取的特 征值为参考特征值;
S203、 在样本子集中, 参考特征值所对应的样本为根节点, 样本特征值小于参考特征值
的样本被放到当前节点的左子树, 样本特征值大于参考特征值的样本被放到当前节点的右
字树;
S204、 在样本子集 中递归执行步骤S202和S203, 不断构造新的子树节点, 直到所有叶子
节点都有一个样本或者 二叉树达 到最高度, 生成一颗 完整的孤立 树;
S205、 迭代步骤S201~S204, 得到多颗孤立 树, 生成第一孤立森林异常检测模型。
3.如权利要求2所述的基于半监督集成学习的欺诈检测方法, 其特征在于, 所述步骤S2
包括:
异常评分计算公式为:
(1) ;
其中, h(x)表示样本x从二叉树的根节点到叶子节点所经过的边的数目, E(h(x))表示
样本x 在所有二叉树中h(x)的平均值, n表 示单棵二叉树的训练样 本的样本数, c(n)表 示给
定包含n个样本 子集时二叉树的平均路径长度, 用于对h(x)做归一 化处理。
4.如权利要求1所述的基于半监督集成学习的欺诈检测方法, 其特征在于, 所述步骤S3
包括:
利用标签数据样本集构建多个基学习器, 初始化基学习器的参数, 基学习器采用的逻
辑回归的优化器损失函数L oss(x)为:
(2) ;
(3) ;
(4) ;
其中, L为标签数据样本集, wk为第k个基学习器模型的权重参数, wkT为wk的转置, bk为第
k个基学习器模 型的偏置参数, xi为第i个输入 数据, yi为第i个输入 数据的数据标签, fk (x)
为第k个基学习器模型输出, fk (xi)为第k个基学习器在第i个输入数据情况下输出, λ为默
认参数, 大小默认为1;
求解损失函数Loss(x)最小化, 通过梯度求导不断优化损失值进行最小化, 将损失函数
Loss(x)中对 模型参数梯度求 导后的值进行反向传播, 得到更新后的该基学习器的参数。
5.如权利要求4所述的基于半监督集成学习的欺诈检测方法, 其特征在于, 所述步骤S3
包括:
利用所述半监督集成学习模型对所述无标签数据样本集进行模型训练, 并最小化所述
半监督集成学习模型 的损失函数, 以优化所有基学习器的参数, 获取优化后的一组基学习
器参数。权 利 要 求 书 2/4 页
3
CN 114881775 B
3
专利 一种基于半监督集成学习的欺诈检测方法及系统
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:17:59上传分享