全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210680629.X (22)申请日 2022.06.16 (71)申请人 江苏省联合征信有限公司 地址 210019 江苏省南京市 建邺区江东中 路373号 (72)发明人 齐宁 周云松 王治平 朱巍  李育 于航  (74)专利代理 机构 南京智造力知识产权代理有 限公司 32382 专利代理师 张明明 (51)Int.Cl. G06Q 40/02(2012.01) G06F 16/215(2019.01) (54)发明名称 一种基于交叉校验置信度计算的数据可信 评估方法和系统 (57)摘要 本发明提供了一种基于交叉校验置信度计 算的数据可信评估方法和系统, 评估方法包括: 先对对照数据进行清洗和预处理, 然后选择/标 定基准数据, 将各对照数据表与基准数据表的字 段排序对齐, 接着按照匹配计算规则将各对照数 据表的字段值分别与基准数据表的字段值进行 匹配, 为各对照数据表建立匹配结果矩阵, 再根 据匹配结果对应的置信度, 计算所有对照数据表 的匹配结果矩阵对应的置信 度; 最后根据数据清 洗、 基准标定、 基准维度对齐和 匹配计算过程中 产生的过程数据生成数据可信评估报告。 本发明 简化了由人工参与数据质量分析和可信评估的 过程, 显著提高了数据评估工作的效率和准确 率。 权利要求书2页 说明书9页 附图3页 CN 115170273 A 2022.10.11 CN 115170273 A 1.一种基于交叉 校验置信度计算的数据可信评估方法, 其特 征在于: 对对照数据进行清洗和预处 理; 选择/标定基准数据, 将各对照数据表与基准数据表的字段排序对齐; 按照匹配计算规则将各对照数据表的字段值分别与基准数据表的字段值进行匹配, 为 各对照数据表建立匹配结果矩阵; 根据匹配结果对应的置信度, 计算所有对照数据表的匹配结果矩阵对应的置信度。 2.根据权利要求1所述的数据 可信评估方法, 其特征在于, 所述对照数据 是来自非权威 渠道、 待评估的真实数据, 其标定基准数据 的过程为: 直接选择来自权威数据作为基准数 据。 3.根据权利要求1所述的数据 可信评估方法, 其特征在于, 所述对照数据 是来自非权威 渠道的数据, 其标定基准数据的过程 为: 对各对照数据表进行排列和关联, 再依次遍历各对照数据表, 计算每个关联键rid在所 有对照数据表中出现的次数Times(rid), 若Times(rid)=N, 将关联键rid对应的数据记录 加入待评估 数据集中, 生 成临时数据集 1, 在临时数据集 1中, 依次遍历所有关联键r id, 将临 时数据集 1中的所有字段值填充完 毕, 生成临时数据集2, 删除临 时数据集2中不可用的基准 字段值, 生成基准数据集; 所述在临时数据集1中, 依次遍历所有关联键rid, 并计算临时数据集1中每个字段值在 所有表中出现的次数Times(valuei_j), 若: Times(valuei_j)>=fl oor(N*Tp), 将valuei_j作为对应 基准字段值; 同时存在多个字段值valuei_j, 均 满足Times(valuei_j)>=floor(N*Tp), 先按照次数 由大到小排序, 然后按照对照数据表排列顺序对valuei_j进一步排序, 最终选择第一顺位 对应的valuei_j作为基准字段值; 不存在valuei_j满足Times(valuei_j)>=floor(N*Tp), 则将基准字段值标记为不可 用; 其中: N表示对照数据表的数量, floor表示向下取整, Tp表示F在N份对照数据表中出现 概率的阈值。 4.根据权利要求1所述的数据可信评估方法, 其特 征在于, 所述匹配 计算规则包括: 空值: 空白值与其 他值进行匹配, 对应的置信度参 考值为50%; 精确匹配: 相同类型值是否相等匹配, 对应的置信度参 考值为100%; 范围匹配: 大小范围、 集 合范围、 时间范围的匹配, 对应的置信度参 考值为90%; 模糊匹配: 分词包 含、 文本相似度的匹配关系, 对应的置信度参 考值为70%; 无匹配, 对应的置信度参 考值为0%。 5.根据权利要求1所述的数据可信评估方法, 其特征在于, 所述置信度包括记录级/行 级置信度和字段级/列级置信度; 所述记录级/行级置信度的计算公式为: 所述字段级/列级置信度的计算公式为:权 利 要 求 书 1/2 页 2 CN 115170273 A 2其中: Vm,n 为对照数据表字段的置信度, m表示关联键, n表示字段, Num()表示数量。 6.根据权利要求1所述的数据 可信评估方法, 其特征在于, 还包括生成数据可信 评估报 告, 所述数据可信评估报告根据中间过程数据生成, 所述中间过程数据是在数据 清洗、 基准 标定、 基准维度对齐和匹配 计算过程中产生的。 7.根据权利要求6所述的数据 可信评估方法, 其特征在于, 所述清洗和预处理包括但不 限于如下方式: 字典/枚举转换、 字段类型转换、 异常值处理、 关联键生成、 去除或忽略部分 无业务含义或价 值的字段。 8.一种实现权利要求1 ‑7任一项所述的数据可信评估方法的系统, 其特 征在于, 包括: 数据导入 模块, 用于将对照数据导入; 数据清洗模块, 对 对照数据进行清洗和预处 理; 基准标定模块, 标定基准数据; 基准维度对齐模块, 将各对照数据表与基准数据表的字段排序进行对齐; 计算模块, 将各对照数据表的字段值分别与基准数据表的字段值进行匹配, 计算匹配 结果对应的置信度; 报告输出与清理模块, 利用中间过程数据生成和输出数据可信评估报告, 并对中间过 程数据进行清除。 9.一种电子设备, 其特 征在于, 包括存 储器和处 理器; 所述存储器用于存 储计算机程序; 所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1 ‑7 任一项所述的数据可信评估方法。 10.一种存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计算机程序被 处理器执行时使所述处 理器执行如权利要求1 ‑7任一项所述的数据可信评估方法。权 利 要 求 书 2/2 页 3 CN 115170273 A 3

.PDF文档 专利 一种基于交叉校验置信度计算的数据可信评估方法和系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于交叉校验置信度计算的数据可信评估方法和系统 第 1 页 专利 一种基于交叉校验置信度计算的数据可信评估方法和系统 第 2 页 专利 一种基于交叉校验置信度计算的数据可信评估方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:17:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。