全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210550549.2 (22)申请日 2022.05.20 (71)申请人 上海孚厘科技有限公司 地址 201900 上海市宝山区石太路439号2 幢502A室 (72)发明人 李潇 惠崇勇  (74)专利代理 机构 深圳市世纪恒程知识产权代 理事务所 4 4287 专利代理师 吴士卿 (51)Int.Cl. G06F 40/258(2020.01) G06F 16/33(2019.01) G06V 30/26(2022.01) G06Q 40/02(2012.01) (54)发明名称 流水数据纠错方法、 装置、 设备及存 储介质 (57)摘要 本发明涉及数据处理技术领域, 公开了一种 流水数据纠错方法、 装置、 设备及存储介质, 所述 方法包括: 对待处理流水标题行数据进行预处 理, 得到目标流水标题行数据; 根据预设标准标 题库和所述目标流水标题行数据确定非标准流 水标题行数据; 将所述非标准流水标题行数据与 预设纠错库进行比对, 得到比对成功标题行数据 和比对失败 标题行数据; 根据所述比对成功标题 行数据和所述比对失败标题行数据对所述非标 准流水标题行数据进行纠错; 通过上述方式, 根 据比对成功标题行数据和比对失败标题行数据 进行非标准流水标题行数据的纠错, 从而能够有 效提高流水数据的准确性, 以及实现流水数据格 式的统一。 权利要求书2页 说明书11页 附图4页 CN 114997151 A 2022.09.02 CN 114997151 A 1.一种流水 数据纠错方法, 其特 征在于, 所述 流水数据纠错方法包括以下步骤: 对待处理流水标题行数据进行 预处理, 得到目标流水 标题行数据; 根据预设标准标题库和所述目标流水 标题行数据确定非标准 流水标题行数据; 将所述非标准流水标题行数据与 预设纠错库进行比对, 得到比对成功标题行数据和比 对失败标题行 数据; 根据所述比对成功标题行数据和所述比对失败标题行数据对所述非标准流水标题行 数据进行纠错。 2.如权利要求1所述的流水数据纠错方法, 其特征在于, 所述对待处理流水标题行数据 进行预处理, 得到目标流水 标题行数据, 包括: 对待处理流水标题行数据进行识别, 得到 字符数据和空白数据; 分别对所述字符数据和所述空白数据进行去空 处理; 将去空后的空白数据从所述待处 理流水标题行数据中剔除; 在剔除完成后, 根据去空后的字符数据生成目标流水 标题行数据。 3.如权利要求1所述的流水数据纠错方法, 其特征在于, 所述根据 预设标准标题库和所 述目标流水 标题行数据确定非标准 流水标题行数据, 包括: 将所述目标流水标题行数据与所述预设标准标题库进行比对, 得到比对成功流水标题 行数据; 对所述比对成功流水 标题行数据进行转换, 得到标准 流水标题行数据; 将所述标准流水标题行数据从所述目标流水标题行数据中剔除, 得到非标准流水标题 行数据。 4.如权利要求1所述的流水数据纠错方法, 其特征在于, 所述将所述非标准流水标题行 数据与预设纠错库进行比对, 得到比对成功标题行 数据和比对失败标题行 数据, 包括: 根据所述非标准 流水标题行数据构建流水 标题行数据纠错 集合; 根据所述 流水标题行数据纠错 集合得到对应的流水 标题行字符数据; 将所述流水标题行字符数据与预设纠错库进行遍历比对, 得到比对成功标题行数据和 比对失败标题行 数据。 5.如权利要求4所述的流水数据纠错方法, 其特征在于, 所述将所述流水标题行字符数 据与预设纠错库进行遍历比对, 得到比对成功标题行 数据和比对失败标题行 数据, 包括: 获取所述流水标题行字符数据的标题数据长度; 在所述标题数据长度为目标长度时, 判断在预设纠错库中是否存在与 所述标题数据长 度相同的纠错标题数据; 在所述预设纠错库中不存在与所述标题数据长度相同的纠错标题数据; 对所述标题数据长度进行减一计算, 得到第一标题数据长度; 在所述预设纠错库中不存在与所述第一标题数据长度相同的纠错标题数据; 对所述标题数据长度进行减二计算, 得到第二标题数据长度; 在所述预设纠错库中不存在与所述第二标题数据长度相同的纠错标题数据; 重复上述步骤, 对所述标题数据长度以单位间隔进行递减, 直至递减后的标题数据长 度为目标数值, 或者所述递减后的标题数据长度小于所述预设纠错库中的最小标题数据长 度, 或者流水标题行字符数据全为 目标位置状态, 以及所述预设纠错库存在与预设标题数权 利 要 求 书 1/2 页 2 CN 114997151 A 2据长度相同的纠错标题数据; 将所述流水标题行字符数据和与预设标题数据长度相同的纠错标题数据进行遍历比 对, 得到比对成功标题行 数据和比对失败标题行 数据。 6.如权利要求1至5中任一项所述的流水数据纠 错方法, 其特征在于, 所述根据所述比 对成功标题行数据和所述比对失败标题行数据对所述 非标准流水标题行数据进行纠错, 包 括: 提取所述非标准 流水标题行数据中非目标位置状态的标题行 数据; 将所述非标准流水标题行数据替换成比对成功标题行数据, 并将所述标题行数据的非 目标位置状态改写为目标位置状态; 根据所述比对失败标题行数据将所述非标准流水标题行数据的非目标位置状态改写 为目标位置状态。 7.如权利要求6所述的流水数据纠错方法, 其特征在于, 所述根据 所述比对失败标题行 数据将所述非标准 流水标题行数据的非目标位置状态改写为目标位置状态之后, 还 包括: 将所述比对失败标题行 数据添加至预设标题更新库中; 通过添加后的预设标题更新库对预设标准标题库和预设纠错库进行迭代更新; 根据迭代更新后的预设标准标题库和预设纠错库继续进行其他流水标题行数据的纠 错。 8.一种流水 数据纠错装置, 其特 征在于, 所述 流水数据纠错装置包括: 处理模块, 用于对待处 理流水标题行数据进行 预处理, 得到目标流水 标题行数据; 确定模块, 用于根据 预设标准标题库和所述目标流水标题行数据确定非标准流水标题 行数据; 比对模块, 用于将所述非标准流水标题行数据与预设纠 错库进行比对, 得到比对成功 标题行数据和比对失败标题行 数据; 纠错模块, 用于根据 所述比对成功标题行数据和所述比对失败标题行数据对所述非标 准流水标题行数据进行纠错。 9.一种流水数据纠 错设备, 其特征在于, 所述流水数据纠 错设备包括: 存储器、 处理器 及存储在所述存储器上并可在所述处理器上运行的流水数据纠错程序, 所述流水数据纠错 程序配置有实现如权利要求1至7中任一项所述的流水 数据纠错方法。 10.一种存储介质, 其特征在于, 所述存储介质上存储有流水数据纠错程序, 所述流水 数据纠错 程序被处 理器执行时实现如权利要求1至7中任一项所述的流水 数据纠错方法。权 利 要 求 书 2/2 页 3 CN 114997151 A 3

.PDF文档 专利 流水数据纠错方法、装置、设备及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 流水数据纠错方法、装置、设备及存储介质 第 1 页 专利 流水数据纠错方法、装置、设备及存储介质 第 2 页 专利 流水数据纠错方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:24:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。