全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210619787.4 (22)申请日 2022.06.02 (71)申请人 支付宝 (杭州) 信息技 术有限公司 地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人 章强 胡圻圻 陈新  (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 李世喆 (51)Int.Cl. G06Q 40/02(2012.01) G06Q 10/04(2012.01) G06Q 10/06(2012.01) (54)发明名称 特征发现方法、 属性预测方法和装置 (57)摘要 本说明书实施例描述了特征发现方法、 属性 预测方法和装置。 根据实施例的特征发现方法, 首先获取业务运营中产生的对运营的业务中所 包含的属性进行预测的原始特征。 然后对该原始 特征进行衍生以及质量评估后, 即可得到运营业 务中所包含的对属性进行预测的属性预测特征。 由于本方案是通过对已有的特征进行衍生得到 的, 因此不需要花费大量时间对原始数据进行分 析总结, 能够大大提高特征发现的效率。 而且通 过对衍生特征进行质量评估, 能够根据衍生特征 对属性预测的重要程度筛选得到性能更优的属 性预测特 征, 从而提高属性预测的准确性。 权利要求书3页 说明书13页 附图5页 CN 114943607 A 2022.08.26 CN 114943607 A 1.特征发现方法, 包括: 获取业务运营中产生的至少一个原始特征; 其中, 所述原始特征用于对运营的业务中 所包含的属性进行 预测; 对所述至少一个原 始特征进行衍 生, 得到至少一个衍 生特征; 对所述至少一个衍生特征的质量进行评估, 得到对所述运营的业务中所包含的属性进 行预测的属 性预测特征; 其中, 所述衍生特征 的质量用于表征该特征对所述属 性进行预测 的重要程度。 2.根据权利要求1所述的方法, 其中, 所述至少一个原 始特征包括至少两个原 始特征; 所述对所述至少一个原 始特征进行衍 生得到至少一个衍 生特征, 包括: 根据每一个所述原始特征对所述属性的覆盖程度, 对所述至少两个原始特征进行筛 选, 得到至少一个筛 选特征; 将所述至少一个筛选特征映射到与当前筛选特征所在的维度不同的维度, 得到所述至 少一个衍 生特征。 3.根据权利要求2所述的方法, 其中, 所述根据每一个所述原始特征对所述属性的覆盖 程度对所述至少两个原 始特征进行筛 选得到至少一个筛 选特征, 包括: 将所述至少两个原始特征中, 特征值大于预设的第 一有效特征阈值的原始特征确定为 所述筛选特征。 4.根据权利要求1所述的方法, 其中, 所述至少一个原 始特征包括至少两个原 始特征; 所述对所述至少一个原 始特征进行衍 生得到至少一个衍 生特征, 包括: 针对所述至少两个原始特征中的任意一个第 一原始特征和任意一个第 二原始特征, 均 执行: 将所述第一原 始特征进行拆分, 得到 M个第一拆分特 征; 以及, 将所述第二原 始特征进行拆分, 得到N个第二拆分特 征; 其中, M和N均为大于 0的整数; 将所述M个第一拆分特征和所述N个第二拆分特征进行组合, 得到M ×N个初级衍生特 征; 其中, 任意一个组合得到的初级衍生特征均由一个第一拆分特征和 一个第二拆分特征 组合得到; 根据每一个初级衍生特征对所述属性的覆盖程度, 对所述M ×N个初级衍生特征进行筛 选得到所述至少一个衍 生特征。 5.根据权利要求4所述的方法, 其中, 所述根据每一个初级衍生特征对所述属性的覆盖 程度对所述M ×N个初级衍 生特征进行筛 选得到所述至少一个衍 生特征, 包括: 将所述M×N个初级衍生特征中, 组合特征值大于预设的第 二有效特征阈值的初级衍生 特征确定为所述衍生特征; 其中, 所述组合特征值为组合成对应初级衍生特征 的第一拆分 特征和第二拆分特 征的特征值通过加权平均得到的值。 6.根据权利要求1所述的方法, 其中, 所述对所述至少一个衍生特征的质量进行评估得 到属性预测特 征, 包括: 计算各个所述 衍生特征的属性预测能力值; 将各所述属性预测能力值中, 大于预设评估阈值的属性预测能力值所对应的衍生特征 确定为所述属性预测特 征。 7.根据权利要求6所述的方法, 其中, 所述属性包括待预测的第一属性结果, 以及与所权 利 要 求 书 1/3 页 2 CN 114943607 A 2述第一属性结果相反的第二属性结果; 所述计算各个所述 衍生特征的属性预测能力值, 包括: 针对每一个所述 衍生特征, 均执行: 将当前衍生特征进行等距离的分组, 得到k个分组; 其中, 所述等距离包括等高和等宽 中的至少一个; k 为大于0的整数; 利用如下计算式, 计算各个分组对应的属性预测能力值: 其中, IVi用于表征第i个分组对应的属性预测能力值, yi用于表征第i个分组包含所述 第一属性结果的数量, ys用于表征 当前衍生 特征中包含所述第一属性结果的数量, xi用于表 征第i个分组包含所述第二属性结果的数量, xs用于表征当前衍生特征中包含所述第二属 性结果的数量; 对各个分组得到的属性预测能力值进行求和, 得到所述当前衍生特征的属性预测能力 值。 8.根据权利要求1所述的方法, 其中, 所述对所述至少一个衍生特征的质量进行评估得 到属性预测特 征, 包括: 根据利用所述原始特征和所述衍生特征分别进行属性预测的准确度, 确定所述属性预 测特征。 9.根据权利要求8所述的方法, 其中, 所述根据利用所述原始特征和所述衍生特征分别 进行属性预测的准确度确定所述属性预测特 征, 包括: 利用所述原 始特征中的至少一个, 训练得到第一属性预测模型; 利用所述 衍生特征中的至少一个, 训练得到第二属性预测模型; 分别利用所述第一属性预测模型和所述第二属性预测模型对同一待属性预测特征进 行属性预测, 得到对应所述第一属性预测模型的第一预测结果和对应所述第二属性预测模 型的第二预测结果; 计算所述第一预测结果与所述待属性预测特征的标签值的距离, 得到第一相似值; 以 及, 计算所述第二预测结果与所述待属性预测特 征的标签值的距离, 得到第二相似值; 当所述第二相似值小于所述第 一相似值 时, 将用于训练所述第 二属性预测模型的衍生 特征确定为所述属性预测特 征。 10.属性预测方法, 包括: 获取基于权利要求1至9中任一所述的特征发现方法得到的至少两个对运营的业务中 所包含的属性进行 预测的属性预测特 征, 以及该至少两个属性预测特 征的质量评估结果; 根据属性预测特征的质量评估结果, 将所述至少两个属性预测特征划分为至少两个等 级; 以及, 将所述至少两个等级的属性预测特征部署到不同的业务中, 以实现在不同业务中对所 述属性进行 预测; 其中, 所述 业务的重要程度越高, 部署的属性预测特 征的等级越高。 11.特征发现装置, 包括: 特 征获取模块、 特 征衍生模块和特 征评估模块; 所述特征获取模块, 配置为获取业务运营中产生的至少一个原始特征; 其中, 所述原始权 利 要 求 书 2/3 页 3 CN 114943607 A 3

.PDF文档 专利 特征发现方法、属性预测方法和装置

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 特征发现方法、属性预测方法和装置 第 1 页 专利 特征发现方法、属性预测方法和装置 第 2 页 专利 特征发现方法、属性预测方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:24:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。