全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210743693.8 (22)申请日 2022.06.27 (71)申请人 平安银行股份有限公司 地址 518000 广东省深圳市罗湖区深南 东 路5047号 (72)发明人 骆昕艳  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 安卫静 (51)Int.Cl. G06F 17/18(2006.01) G06Q 40/02(2012.01) G06Q 40/08(2012.01) (54)发明名称 对多业务线进行采样的方法、 装置和电子设 备 (57)摘要 本发明提供了一种对多业务线进行采样的 方法、 装置和电子设备, 该方法中, 是采用预设分 桶策略对各个待采样业务线的样本概率进行分 桶后, 根据随机确定的目标分桶所包含的待采样 业务线的样本概率实现的在目标待采样业务线 上的随机采样, 上述各个待采样业务线的样本概 率是根据当前预设时间段内各个待采样业务线 的待采样样 本的样本量确定的, 能够根据实际业 务需求灵活调节各个待采样业务线的样本量, 并 且上述预设分桶策略是基于别名算法的原理得 到的, 确定的各个 分桶所包含的待采样业务线的 样本概率随机性好, 进而确定的目标待采样业务 线的随机性好, 最终在目标待采样业务线上采样 得到的样本的随机性 好。 权利要求书2页 说明书13页 附图4页 CN 115114581 A 2022.09.27 CN 115114581 A 1.一种对多业 务线进行采样的方法, 其特 征在于, 包括: 获取当前预设时间段内待训练模型对应的各个待采样业务线的待采样样本的样本量, 并根据所述各个待采样业 务线的待采样 样本的样本量确定各个待采样业 务线的样本概 率; 获取所述待训练模型训练时所需要的总样本数, 并基于所述总样本数确定采样的次数 和每次采样的样本数; 按照预设分桶策略对所述各个待采样业务线的样本概率进行分桶, 得到各个分桶所包 含的待采样业务线的样本概率, 其中, 所述预设分桶策略为基于别名算法的原理得到的分 桶策略; 在所有所述分桶中随机确定一个目标分桶, 并基于所述目标分桶所包含的待采样业务 线的样本概率, 在所述 目标分桶所包含的待采样业务线中确定目标待采样业务线, 进而从 所述目标待采样业务线的待采样样本中随机抽取与所述每次采样的样本数数量相同的样 本; 返回执行在所有所述分桶中随机确定一个目标分桶的过程, 直至达到所述采样的次 数。 2.根据权利要求1所述的方法, 其特征在于, 在获取当前预设时间段内待训练模型对应 的各个待采样业 务线的待采样 样本的样本量之前, 所述方法还 包括: 获取所述当前预设时间段内所述待训练模型对应的所有业务线和每个所述业务线的 待采样样本的样本量; 根据每个所述业务线的待采样样本的样本量和所述总样本数, 在所述所有业务线中确 定所述待采样业 务线。 3.根据权利要求1所述的方法, 其特征在于, 根据 所述各个待采样业务线的待采样样本 的样本量确定各个待采样业 务线的样本概 率, 包括: 计算所述各个待采样业务线的待采样样本的样本量占所有所述待采样业务线的待采 样样本的样本总量的比例, 其中, 所述样本总量为所有所述待采样业务线的待采样样本的 样本量的和; 将所述比例作为所述各个待采样业 务线的样本概 率。 4.根据权利要求1所述的方法, 其特征在于, 基于所述总样本数确定采样的次数和每次 采样的样本数, 包括: 根据采样的次数计算算式Nbatch=Nround×i计算所述采样的次数, 其中, Nbatch表示所述 采样的次数, i表示所述待采样业 务线的个数, Nround为大于等于10的预设值; 将所述总样本数与所述采样的次数的比值作为所述每次采样的样本数。 5.根据权利要求1所述的方法, 其特征在于, 按照预设分桶策略对所述各个待采样业务 线的样本概 率进行分桶, 包括: 按照所述各个待采样业务线的样本概率的均值对所述各个待采样业务线的样本概率 进行归一 化处理, 得到所述各个待采样业 务线的归一 化处理后的样本概 率; 将所述各个待采样业 务线的归一 化处理后的样本概 率作为当前的分桶结果; 在所述当前的分桶结果中, 从样本概率最大的分桶开始, 将大于归一值的归一化处理 后的样本概率的部 分样本概率划分至样本概率最小的分桶, 使得所述样本概率最小的分桶 达到归一值, 进而得到更新后的分桶结果;权 利 要 求 书 1/2 页 2 CN 115114581 A 2将所述更新后的分桶结果作为所述当前的分桶结果, 返回执行在所述当前的分桶结果 中, 从样本概率最大 的分桶开始, 将大于归一值的归一化处理后的样本概率的部分样本概 率划分至样本概率最小的分桶的步骤, 直至每个分桶的样 本概率的和都为 1为止, 且每个所 述分桶的待采样业 务线的数量 不超过2。 6.根据权利要求1所述的方法, 其特征在于, 基于所述目标分桶所包含的待采样业务线 的样本概 率, 在所述目标分桶所包 含的待采样业 务线中确定目标待采样业 务线, 包括: 若所述目标分桶中只有一条待采样业务线的样本概率, 则将该条待采样业务线作为所 述目标待采样业 务线; 若所述目标分桶中有两条待采样业务线的样本概率, 则基于该两条待采样业务线的样 本概率确定该两条待采样业务线 所对应的概率范围, 并将随机生成的目标随机数所属的概 率范围对应的待采样业务线作为所述目标待采样业务线, 其中, 所述目标随机数为0到1之 间的随机数。 7.根据权利要求1所述的方法, 其特征在于, 当所述待训练模型为点击率模型时, 所述 待采样样本为负 样本。 8.一种对多业 务线进行采样的装置, 其特 征在于, 包括: 第一获取和确定单元, 用于获取当前预设时间段内待训练模型对应的各个待采样业务 线的待采样样本的样本量, 并根据所述各个待采样业务线的待采样样本的样本量确定各个 待采样业 务线的样本概 率; 第二获取和确定单元, 用于获取所述待训练模型训练时所需要的总样本数, 并基于所 述总样本数确定采样的次数和每次采样的样本数; 分桶单元, 用于按照预设分桶策略对所述各个待采样业务线的样本概率进行分桶, 得 到各个分桶所包含的待采样业务线的样本概率, 其中, 所述预设分桶策略为基于别名算法 的原理得到的分桶策略; 随机采样单元, 用于在所有所述分桶中随机确定一个目标分桶, 并基于所述目标分桶 所包含的待采样业务线的样本概率, 在所述目标分桶所包含的待采样业务线中确定目标待 采样业务线, 进而从所述目标待采样业务线的待采样样本中随机抽取与所述每次采样的样 本数数量相同的样本; 返回执行单元, 用于返回执行在所有所述分桶中随机确定一个目标分桶的过程, 直至 达到所述采样的次数。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现上述权利要求1至7 中任一项所述的方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有机器可运 行指令, 所述机器可运行指令在被处理器调用和运行时, 所述机器可运行指令促使所述处 理器运行 上述权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115114581 A 3

.PDF文档 专利 对多业务线进行采样的方法、装置和电子设备

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 对多业务线进行采样的方法、装置和电子设备 第 1 页 专利 对多业务线进行采样的方法、装置和电子设备 第 2 页 专利 对多业务线进行采样的方法、装置和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:23:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。