深度强化学习应用于电力系统的研究现状
一、技术概述 二、研究现状 三、应用案例
融合图神经网络模型与强化学习的综合能源系统优化调度
随着人工智能技术特别是强化学习在能源优化调度领域的深入研究,将系统状态表示为向量用于学习的模式,其训练效率与信息利用率较低。针对这一问题,提出了一种融合图神经网络模型与强化学习的综合能源系统优化调度方法。首先,将电-热-气综合能源系统建模为图结构数据,充分利用系统的拓扑信息。其次,提出了基于图神经网络架构的强化学习模型,使其可以充分利用图结构信息实现更快的训练速度,获得更大的探索空间。最后,将表示系统状态的图结构信息送入该模型进行训练,算例仿真验证了该方法的训练效率与探索能力。
融合注意力机制与SAC算法的虚拟电厂多能流低碳调度
虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难等问题。针对这些问题,文中提出一种融合注意力机制(attention mechanism,AM)与柔性动作评价(soft actor-critic,SAC)算法的VPP多能流低碳调度方法。首先,根据VPP的随机碳流特性,面向动态参数建立基于贝叶斯优化的改进阶梯型碳交易机制。接着,以经济效益和碳排放量为目标函数构建含氢VPP多能流解耦模型。然后,考虑到该模型具有高维非线性与权重参数实时更新的特征,利用融合AM的改进SAC深度强化学习算法在连续动作空间对模型进行求解。最后,对多能流调度结果进行仿真分析和对比实验,验证了文中方法的可行性及其相较于原SAC算法较高的决策准确性。
基于深度强化学习的电力CPS联合防御方案
为解决电力系统中可能发生的协同攻击事件,文章提出包含单点防御、级联防御和全局防御的三级联合防御模型,配合攻防推演模块和策略规约模块,能够实现针对电力系统协同攻击的有效防御。三级防御分析器分别基于攻击防御树、连锁故障和深度强化学习实现,其核心为基于多智能体行动者-注意力-评论家框架(multi-agent actor attention critic,MAAC)的全局防御分析模型,MAAC能够考虑攻击者与防御者之间的竞争协作关系进而给出防御策略,使其更加适合电力信息物理系统(cyber physical systems,CPS)复杂的攻防场景分析。实验采用IEEE总线系统为基础构造电力CPS,环境中的数据从实际电力系统引入,使MAAC的训练学习面向真实环境。实验结果表明,该模型在收敛速度和防御性能上均优于其他模型,证明所提出的联合防御模型能够有效提升电力CPS面对复杂协同攻击场景的防御能力。
基于深度学习的电力系统虚假数据注入攻击检测综述
虚假数据注入攻击(false data injection attack, FDIA)是针对电力系统的一种常见网络攻击,可以通过终端链路或设备注入异常数据,绕过不良数据检测机制,进而引发电力系统的异常运行,造成严重的经济损失。近年来深度学习技术在FDIA检测方面取得诸多进展,通过大量的数据训练和强大的模型学习能力,能够自动学习和提取攻击数据特征,相对于传统方法具有更高的准确率和鲁棒性。总结了近年来基于深度学习的电力系统FDIA检测研究进展,涵盖卷积神经网络、循环神经网络、图神经网络、生成对抗网络和深度强化学习等典型深度学习模型。首先分析各类深度学习模型的FDIA检测原理,并介绍相关技术方法。然后从鲁棒性、评估指标和可扩展性等方面对上述技术进行对比分析,总结其应用范围及存在不足。最后探讨了当前研究中存在的挑战和未来的研究发展方向。
考虑运行状态信息的综合能源系统图强化学习优化调度
“双碳”背景下,异质能源的耦合加剧迫使综合能源系统(integrated energy system, IES)拓扑朝着更复杂、更灵活的方向不断演变。然而,现有优化调度方法对非欧网络拓扑知识及其异质潮流约束考虑不足。针对这一问题,提出一种基于图强化学习的综合能源系统优化调度方法。首先,基于图理论在保证节点多样状态的情况下,将异质能源网络拓扑转换为网络图模型。其次,通过建立基于真实图映射的状态-动作-奖励的框架,利用图强化学习的方法学习图模型的非欧拓扑信息,将异质潮流知识加入系统节点运行状态,从而实现IES的安全优化调度。最后,利用某工业园区的真实数据进行仿真验证,所提方法相对于传统方法有效缓解了节点电压越限的问题。结果表明,所提方法能够在考虑IES真实拓扑运行状态信息和异质潮流安全的情况下实现IES的优化调度。
基于深度强化学习的多能流楼宇低碳调度方法
建筑减排已成为中国达到“双碳”目标的重要途径,智慧楼宇作为多能流网络耦合的综合能源主体,面临碳排放量较多、多能流网络耦合程度高、负荷用能行为动态特性明显等问题。针对这一问题,提出基于深度强化学习的多能流楼宇低碳调度方法。首先,根据智慧楼宇的实际碳排放量,建立了一种奖惩阶梯型碳排放权交易机制。其次,面向碳市场和多能流耦合网络,以最小化运行成本为目标函数,建立多能流低碳楼宇调度模型,并将该调度问题转换为马尔可夫决策过程。然后,利用Rainbow算法进行优化调度问题的求解。最后,通过仿真分析验证了优化调度模型的可行性及有效性。 Building emissions reduction has become a crucial pathway for China to achieve its 'dual-carbon' goals.As an integrated energy entity coupled with multi-energy flow networks, smart buildings face challenges such as high carbon emissions, a high degree of coupling in multi-energy flow networks, and distinct dynamic characteristics in load energy consumption behavior. In response to these challenges, a low-carbon scheduling method for multienergy flow buildings based on deep reinforcement learning(deep RL) is proposed. Firstly, a reward and punishment ladder-type carbon emissions trading mechanism is established based on the actual carbon emissions of smart buildings. Secondly, targeting the carbon market and multi-energy flow coupling networks, a low-carbon scheduling model for multi-energy flow buildings is developed, aiming to minimize operating costs as the objective function, and the scheduling is transformed into a Markov decision process(MDP). Subsequently, the Rainbow algorithm is employed to solve the optimal scheduling. Finally, the feasibility and effectiveness of the optimal scheduling model are verified through simulation analysis.