全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210932369.0 (22)申请日 2022.08.04 (71)申请人 多点生活 (成都) 科技有限公司 地址 610000 四川省成 都市高新区天府大 道中段666号2栋8楼801号 (72)发明人 李广 贺长荣 沈亮  (74)专利代理 机构 成都三诚知识产权代理事务 所(普通合伙) 51251 专利代理师 詹丽红 (51)Int.Cl. G06Q 30/02(2012.01) G06Q 30/06(2012.01) G06F 16/904(2019.01) (54)发明名称 一种基于箱线图指标的数据离群值检测方 法 (57)摘要 本发明公开了一种基于箱线图指标的数据 离群值检测方法, 其特征在于, 其特征在于, 包括 以下步骤: S1: 建立箱线图指标计算和数据离群 值检测系统; S2: 通过数据收集模块对用户产生 的订单进行实时 收集, 并将订单数据下发到下游 的箱线图指标计算模块等步骤。 本发 明主要通过 对箱线图不同指标分开处理的方式, 能够以较高 的性能实时计算数据的分布指标, 避免数据排序 带来的高数据延迟, 从而更快的展示数据的完整 分布以及对离群值进行检测, 方便商家快速掌握 数据分布并提前发现数据中的异常值, 商家可及 时发现异常订单并进行异常原因的快速排查, 帮 助商家减少异常订单导 致的更多损失。 权利要求书2页 说明书5页 附图2页 CN 115375348 A 2022.11.22 CN 115375348 A 1.一种基于箱线图指标的数据离群值检测方法, 其特 征在于, 包括以下步骤: S1: 建立箱线图指标计算和数据离群值检测系统; 其中, 该箱线图指标计算系统包括数据收集模块和箱线图指标计算模块; 所述数据离 群值检测模块系统包括离群值检测模块、 离群值消息发送模块以及数据可视化模块; S2: 通过数据收集模块对用户产生的订单进行实时收集, 并将订单数据下发到下游 的 箱线图指标计算模块; S3: 箱线图指标计算模块对接收的订单数据进行分组计算处理, 采用基于maxHeap加 minHeap的存储方式计算出整个数据流中的最新中位数、 上四分位、 下四位数三个 分位数指 标; 通过基于TreeSet的数据集来计算排除异常值后, 得出整个数据流中的最大值与最小极 值, 得到箱线图的五个指标, 并将得到的箱线图的五个指标和订单数据一并发送给离群值 检测模块; S4: 离群值检测模块对箱线图的五个指标进行汇总, 并根据汇总的箱线图指标判定订 单数据是否是离群值; 是, 进 行打标后, 发送给离群值消息发送模块; 否, 通过数据可视化模 块将订单 数据依照箱线图指标分布进行展示; S5: 离群值消息发送模块将离群信息发送给商家, 同时也将离群信息发送至数据可视 化模块进行展示, 数据离群值检测完成。 2.根据权利要求1所述的基于箱线图指标的数据离群值检测方法, 其特征在于, 所述步 骤S1中, 所述箱线图指标计算模块包括: 中位数计算模块, 用于计算出订单 数据中的中位数指标; 上四分位数计算模块, 用于计算出订单 数据中的上四分位数指标; 下四分位数计算模块, 用于计算出订单 数据中的下四分位数指标; 极值计算模块, 用于计算出订单数据中的最大值与最小极值, 极值计算模块中主要是 一个基于TreeSet的数据集; 所述中位数计算模块和上四分位数计算模块以及下四分位数计算模块中还分别设置 有堆调节模块; 其中, 为中位数计算模块配置了参数n, 其n=1, 且参数n为maxHeap(最大堆)与minHeap 参数的比值; 所述上四分位数计算模块配置的参数为中位数计算模块参数n的三分之一, 下 四分位数计算模块的参数为中位数计算模块 参数n的三 倍; 所述堆调节模块用于对maxHeap与minHeap的数据大小进行调节, 以保证maxHeap与 minHeap满足数量 规则, 其数量 规则如下: n×minHeap的元 素个数≦maxHeap的元 素个数≦n ×minHeap的元 素个数+1。 3.根据权利要求2所述的基于箱线图指标的数据离群值检测方法, 其特征在于, 所述步 骤S3中的基于maxHeap加minHeap的存储 方式计算中, 中位数、 上四分位、 下四位数三个分位 数指标计算方法相同, 其中, 基于maxHeap加minHeap的存储方式计算中位数指标的步骤如 下: a、 箱线图指标计算模块对输入的订单 数据进行分堆处 理, 得到maxHeap、 mi nHeap; b、 通过堆调节模块判定得到的maxHeap与minHeap的数据是否满足数量规则; 是, 进入 步骤c; 否, 堆调节模块对maxHeap与mi nHeap的数据大小 进行调节, 完成调节后进入步骤c; c、 中位数计算模块对符合数量规则的maxHeap和minHeap进行片判定, 判定maxHeap长权 利 要 求 书 1/2 页 2 CN 115375348 A 2度是否大于n ×minHeap长度; 是, 提取maxHeap顶元素, 则该元素为中位数指标; 否, 通过计 算公式: 中位数指标=(maxHeap顶元 素+minHeap顶元 素)/2, 得到中位数指标。 4.根据权利要求3所述的箱线图指标计算、 离群值检测方法, 其特征在于, 所述步骤a 中, 订单数据进行分堆处 理时步骤如下: a1、 线图指标计算模块识别输入的订单数据 中maxHeap是否为空; 否, 进入步骤a2; 是, 直接将数据插 入maxHeap; a2、 判读输入数据是否小于或等于maxHeap顶端元素; 是, 将数据插入maxHeap; 否, 将数 据插入minHeap。 5.根据权利要求4所述的基于箱线图指标的数据离群值检测方法, 其特征在于, 所述步 骤b中, 堆调节模块对maxHeap与mi nHeap的数据大小调节步骤如下: b1、 判断maxHeap长度是否小于minHeap长度; 是, 将minHeap顶端元素移入maxHeap中, 得到满足数量 规则的maxHeap和mi nHeap, 调整结束; 否, 进入步骤b2; b2、 判断maxHeap长度是否大于n ×minHeap长度+1; 是, 将maxHeap顶端元素移入 minHeap中, 得到满足数量 规则的maxHeap和mi nHeap, 调整结束; 否, 调整结束。 6.根据权利要求5所述的基于箱线图指标的数据离群值检测方法, 其特征在于, 所述步 骤S3中, 通过TreeSet的数据集来计算排除异常值, 得出整个数据流中的最大值与最小极值 的步骤如下: (1)将订单 数据中的每 个数据点 直接插入极值计算模块的Tre eSet的数据集中; (2)利用基于maxHeap加minHeap的存储方式计算得到的上四分位数和下四位数指标, 计算输出四分位间距(I QR), 其中, 四分位间距(I QR)=下四位数指标 ‑上四分位数指标; (3)利用调用数据集的floor方法, 并通过最大值=下四位数指标+1.5 ×四分位间距 (IQR), 从插 入极值计算模块的Tre eSet的数据集中的订单 数据点中直接获取到最大值; (4)利用调用数据集的ceilin g方法, 并通过最小极值=上四分位数指标 ‑1.5×四分位 间距(IQR), 从插入极值计算模块的TreeSet的数据集中的订单数据点中直接获取到最小 值。 7.根据权利要求6所述的基于箱线图指标的数据离群值检测方法的离群值检测方法, 其特征在于, 所述步骤S4中, 根据 汇总的箱线图指标判定订单数据是否是离群值的方法为: 离群值检测模块根据箱线图指标计算模块计算出 的下四位数指标、 上四分位数指标、 四分 位间距(IQR), 判定订单数据中的某个数据点是否大于下四位数指标+1.5 ×四分位间距 (IQR)或小于上四分位数指标 ‑1.5×四分位间距(I QR)。权 利 要 求 书 2/2 页 3 CN 115375348 A 3

.PDF文档 专利 一种基于箱线图指标的数据离群值检测方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于箱线图指标的数据离群值检测方法 第 1 页 专利 一种基于箱线图指标的数据离群值检测方法 第 2 页 专利 一种基于箱线图指标的数据离群值检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:28:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。