全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210965022.6 (22)申请日 2022.08.12 (71)申请人 中国科学院电工 研究所 地址 100190 北京市海淀区中关村北二条6 号 (72)发明人 肖浩 浦骁威 裴玮 马腾飞  马丽 彭大健  (74)专利代理 机构 北京科迪生专利代理有限责 任公司 1 1251 专利代理师 江亚平 (51)Int.Cl. G06Q 50/06(2012.01) G06Q 30/02(2012.01) G06N 3/04(2006.01) G06F 30/27(2020.01) (54)发明名称 一种基于改进深度强化学习的综合能源系 统能量管理方法 (57)摘要 本发明提供一种基于改进深度强化学习的 综合能源系统能量管理方法, 包括: 1)基于综合 能源系统的历史运行数据, 采用长短时记忆神经 网络搭建各综合能源系统等值封装模型; 2)构建 各综合能源系统能量管理策略学习训练所需的 强化学习环境; 3)采用k优先采样策略代替ε贪 心策略改进深度强化学习算法, 并基于改进深度 强化学习算法对各综合能源系统能量管理策略 在线学习。 本发 明通过长短时记忆神经网络的等 值建模简化了多综合能源系统互动时的复杂迭 代过程, 降低了能量管理方案求解难度, 同时改 进的深度强化学习算法能够在大规模动作空间 的探索中减少对低奖励值动作的访问频次, 具有 更好的收敛性与稳定性。 权利要求书4页 说明书10页 附图2页 CN 115409645 A 2022.11.29 CN 115409645 A 1.一种基于改进深度强化学习的综合能源系统能量管理方法, 其特征在于, 包括以下 步骤: 步骤(1): 基于综合能源系统的历史运行数据, 采用长短时记忆神经网络搭建综合能源 系统等值封装模型; 步骤(2): 构建各综合能源系统能量管理策略学习训练所需的强化学习环境; 步骤(3): 采用k优先采样策略, 并基于改进深度强化学习算法对各综合能源系 统能量 管理策略在线学习。 2.如权利要求1所述的一种基于改进深度强化学习的综合能源系统能量管理方法, 其 特征在于, 所述 步骤(1)具体包括如下步骤: 步骤(1‑1)选取长短时记 忆神经网络模型的输入变量和输出变量: 所述综合 能源系统 的历史运行数据包括风电机组、 光伏机组的不可控型分布式可再生 发电机组的出力, 包括微燃机、 燃料电池的可控 型分布式发电机组的出力, 电负荷, 热负荷, 电能交易价格, 热能交易价格, 电能交易额以及热能交易额; 输出变量选择综合能源系统的 电能交易 额和热能交易 额, 其余变量作为输入变量; 步骤(1‑2)进行数据处理, 统计各个综合能源系统的历史运行数据, 对其进行数据标幺 化、 训练集与测试集的划分; 式中, D表示历史运行数据组成的数据集; X表示一组所有变量构成的列向量, d表示第d 天, M表示总共的天数; t表示一天中的第t个时段, N通常为24, 表示一天24个时段; Du表示标 幺化后的历史数据; min( ·)表示取最小值函数, max( ·)表示取最大值函数; 表示标幺 化后从历史数据中取出的训练集, 表示标幺化后从历史数据中取出的测试集, ε表示训 练集占总数据集的比例; 步骤(1‑3)训练长短时记 忆神经网络模型: 采用长短期记忆神经网络, 基于反向传播的小批量梯度 下降法对训练集数据进行学习 训练: 式中, xt代表第t个时段从训练数据集中取出的数据集合; ht‑1代表第t个时段之前累积;权 利 要 求 书 1/4 页 2 CN 115409645 A 2ft代表当前迭代第t个时段对应的遗忘门输出, wf和bf为遗忘层中各神经元的权值系数和偏 置系数, σ( ·)代表s型曲线函数, it代表第t个时段输入层的输出, wi和bi为输入层中各神经 元的权值系数和偏置系数, 代表第t个时段卷积层的预估输出, wc和bc为卷积层中各神经 元的权值系数和偏置系数, tanh( ·)代表双曲正切函数, ct代表当第t个时段卷积层的实际 输出, ot代表第t个时段输出层输出, wo和bo为输出层中各神经元的权值系数和偏置系数, ht 代表当第t个时段实际输出; 步骤(1‑4)进行长短时记 忆神经网络模型效果评估: 使用测试集对长短时记 忆神经网络模型进行测试, 采用均方根 误差进行效果评估; 式中, RMSE表示模型预测值与真实值的均方根误差, xtest表示测试集中网络的输入变 量, ytest表示测试集中网络的输出变量, net 表示训练好的网络函数。 3.如权利要求2所述的一种基于改进深度强化学习的综合能源系统能量管理方法, 其 特征在于, 所述 步骤(2)中具体包括如下步骤: 步骤(2‑1)设定状态空间: 将每个综合能源系统的控制中心视作一个智能体, 所述智能体可观测到的状态空间 为: S=SC×SX×ST 式中, SC代表可控观测量, SX代表不可控观测量, ST代表时序信息观测量; 可控观测量包括综合能源系统内部分布式储储能状态量SoCt, TCL负荷的状态量S oTt以 及市场价格水平Ct, 可观测量如下式所示: SC=[SoCt,SoTt,Cb t] 不可控观测量包括温度Tt, 分布式能源提供的电能Gt, 分布式能源提供的热能Ht, 与不 同综合能源系统的能源交易 价格 以及电负荷 与热负荷 不可观测量如下式所示: 时序信息观测量包括当前天数td, 当前小时th, 如下式所示: ST=[td,th] 步骤(2‑2)设定动作空间: 所述智能体的动作空间为一个10维的离散空间, 该动作空间A包 括对电能的控制Ae以及 对热能的控制Ah, 如下式所示: A=Ae×Ah 对电能的控制动作为: Ae=[atcl,al,ac,aG,ap,as] 式中, atcl为TCL负荷的控制信号, al为价格响应型电负荷的控制信息, ac为分布式储能 罐的充放电控制信号, aG为燃气轮机的发电功率控制信号, ap为电能交易价格控制信号, as 为电能交易 顺序控制信号; 对热能的控制动作为: Ah=[ahc,ahG,ahp,ahs]权 利 要 求 书 2/4 页 3 CN 115409645 A 3

.PDF文档 专利 一种基于改进深度强化学习的综合能源系统能量管理方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于改进深度强化学习的综合能源系统能量管理方法 第 1 页 专利 一种基于改进深度强化学习的综合能源系统能量管理方法 第 2 页 专利 一种基于改进深度强化学习的综合能源系统能量管理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:27:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。