专利一种基于informer预测的数据资源定价方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221091525 6.X (22)申请日 2022.08.01 (71)申请人昆明理工大学地址 650050 云南省昆明市呈贡区景明南路727号 (72)发明人沈俊鑫　沈冰亮　冯井荣　吕佳历　 (74)专利代理机构湖北权上知识产权代理事务所(特殊普通合伙) 42287 专利代理师范瑞鹏 (51)Int.Cl. G06F 16/2458(2019.01) G06K 9/62(2022.01) G06N 5/00(2006.01) G06Q 30/02(2012.01) G06Q 40/04(2012.01) (54)发明名称一种基于informer预测的数据资源定价方法 (57)摘要本发明提供一种基于informer预测的数据资源定价方法，以机器学习实现数据本身因素和市场因素的双向考虑，有效提高数据资源交易效率，使数据资源交易过程更加透明和规范性。方法中的数据稀缺性评分、数据挖掘系数、数据时效性评分、数据销量指标，用市场机制因素作为市场定价依据，有效盘活数据资源并形成闭环的价值链条，最终正式进入会计报表，通过数据资源市场机制和数据资源价值机制实现双平衡。本发明方法定义了记录结构熵及其计算方法，以及模型采用记录结构熵指标度量数据资源自身的真实“信息含金量 ”。因此，本发明方法有效解决数据资源交易中数据资源的 “含金密度 ”难题，本发明方法还创造性地重新给出数据稀缺性评分计算方法。权利要求书2页说明书5页附图1页 CN 115455071 A 2022.12.09 CN 115455071 A 1.一种基于i nformer(改为中文)预测的数据资源定价方法，其特征在于，包括步骤： S1)输入数据资源交易记录； S2)用分类器将记录按交通地理、精准营销、舆情监测、企业管理、科研技术、产业经济、金融征信、健康医疗、生活服务、行业监测报告分类； S3)以数据稀缺性评分、数据挖掘系数、数据时效性评分、数据销量、记录结构熵、数据更新时间、数据量大小、数据行业类型和商品价格9个维度进行嵌入编码，生成训练集T； S4)用训练集T训练基于i nformer预测模型M； S5)将训练集T的商品价格维度置 0进行遮盖处理，生成测试集D； S6)用测试集D输入到预测模型M进行预测，生成预测集P； S7)用损失函数统计预测误差 MSE，若MSE＞0.15，继续迭代，返回步骤S4)； S8)输入数据稀缺性评分、数据挖掘系数、数据时效性评分、数据销量、记录结构熵、数据更新时间、数据量大小、数据行业类型8个维度的被预测的数据集K； S9)用模型M预测数据集K，输出新预测集S， S就是被预测数据集K的预测价格集。 2.根据权利要求1所述的一种基于informer预测的数据资源定价方法，其特征在于，步骤S1)所述的数据资源交易记录含有1万条以上。 3.根据权利要求1所述的一种基于informer预测的数据资源定价方法，其特征在于，步骤S2)所述的分类器采用决策树算法。 4.根据权利要求1所述的一种基于informer预测的数据资源定价方法，其特征在于，步骤S3)所述的数据稀缺性评分Lv1由数据交易平台卖方数量Rs和买方数量Rb根据得出。 5.根据权利要求1所述的一种基于informer预测的数据资源定价方法，其特征在于，步骤S3)所述的数据挖掘系数Dig∈(0， 1)由数据交易平台专家组评估给出。 6.根据权利要求1所述的一种基于informer预测的数据资源定价方法，其特征在于，步骤S3)所述的数据时效性评分Lvt∈(0， 1)由数据交易平台专家组根据数据所搭载信息的生命周期打分。 7.根据权利要求1所述的一种基于informer预测的数据资源定价方法，其特征在于，步骤S3)所述的记录结构熵HS＝‑∑G∈Sp(G)log p(G)相对于图结构熵，其中： p(G)是记录G的概率； S是一个同构集合的集合，字节空间Ω， S∈Ω。 8.根据权利要求1所述的一种基于informer预测的数据资源定价方法，其特征在于，步骤S3)所述的嵌入编码，步骤为：将输入数据序列用Sconv1D(width＝3， stride＝1)函数进行一维卷积输出α U；用计算序列生成PE，其中pos为输入序列值， i为输入序列的序号， dmodel为模型运算时的维度；将输入数据序列的数据更新时间维度格式化为yyyy ‑mm‑dd， HH： MM： SS格式的时间戳向权　利　要　求　书 1/2 页 2 CN 115455071 A 2量SE；计算输出序列xt＝α U+PE+SE 。 9.根据权利要求1所述的一种基于informer预测的数据资源定价方法，其特征在于，步骤S4)所述的基于informer预测模型M采用ProbSparse Self‑Attention机制的soft max函数，其计算公式为：其中是大小与q相同的稀疏矩阵的度量M (q， K)下的Top ‑u个q， V是预测模型M训练生成的键值向量， K是预测模型M训练生成的键， d是 K的维度， Top ‑u为稀疏性得分最高的5个q。 10.根据权利要求1所述的一种基于informer预测的数据资源定价方法，其特征在于，步骤S4)所述的基于i nformer预测模型M的Encoder采用两层堆叠的模式。 11.根据权利要求1所述的一种基于informer预测的数据资源定价方法，其特征在于，步骤S4)所述的基于i nformer预测模型M的Decoder采用两层堆叠的模式。 12.根据权利要求1所述的一种基于informer预测的数据资源定价方法，其特征在于， S7)所述的损失函数公式为：其中wi为第i个权值， yi为第i个真实值，为第i个预测值。权　利　要　求　书 2/2 页 3 CN 115455071 A 3

专利 一种基于informer预测的数据资源定价方法

专利一种基于informer预测的数据资源定价方法