基于安全强化学习和多能源惯性协调的综合能源系统优化调度

（1. 现代电力系统仿真控制与绿色电能新技术教育部重点实验室（东北电力大学）吉林 132012 2. 沈阳工业大学电气工程学院沈阳 110870 3. 丹麦奥尔堡大学能源技术学院奥尔堡 DK-9220 4. 国网新疆电力有限公司克州供电公司克孜勒苏柯尔克孜自治州 845350）

摘要针对综合能源系统中多能源惯性特性迥异、多时间尺度协调复杂导致系统难以实现最优安全经济运行的问题，该文提出一种基于事件触发-安全强化学习的综合能源系统多能源惯性多时间尺度协调优化调度方法。首先，分析电、热、气子系统不同能源惯性的对应协调关系，建立考虑多能源设备参与电网惯性支撑的多能源惯性协调模型；其次，分析电、热、气网络传输时间尺度差异性，建立基于双层安全强化学习的综合能源系统多能源惯性协调优化调度模型，并提出考虑事件触发的安全强化学习求解算法；最后，基于修改的IEEE 30节点电力子系统、20节点天然气子系统和14节点热力子系统进行仿真验证。结果表明，该文提出的多能源惯性多时间尺度协调优化调度方法能够在满足综合能源系统安全约束的前提下实现较好的经济性。

关键词：综合能源系统多能源惯性多时间尺度强化学习优化调度

0 引言

综合能源系统因其多能耦合和能源高效利用正逐步成为推动能源高质量发展的重要载体，也是实现“双碳”目标的关键路径[1]。但综合能源系统中电、热、气能源子系统在能量分布、惯性特性、时间尺度等方面存在明显差异，对系统安全经济运行影响显著[2]。一方面，大规模、分布式风光可再生能源通过电力电子设备并网，使得综合能源系统的电网惯量水平持续下降，抗扰动能力不足；另一方面，电、热、气等能源传输时间尺度不同，且不同能源惯性对应的安全约束迥异，难以协调兼顾各能源子系统的安全、经济运行需求。

综合能源系统中多种能源的能量传输时间尺度和惯性特性不同，电能的响应速度快、传输时间尺度短、对于供能质量水平要求高；而热能和气能响应速度慢、传输时间尺度长、对于供能质量水平要求相对较低[3-4]。根据热力系统、天然气系统对于短时波动的不敏感性和大惯性特性下的网络储能特性，可使多能源耦合设备优先为电网服务，为短时间尺度下的电网能量调节和电网惯性提供支撑。因此，有必要深入研究综合能源系统的多能源惯性特性，实现不同时间尺度的多能源惯性协调调度，对于新型能源系统的安全高效运行具有重要意义。

面向多能源能量协同优化与系统可靠性提升，学术界已系统解析综合能源系统中热网、气网惯性特征及其与电力系统的动态协调机理。文献[5]考虑了建筑集群的热惯性特性，提出一种新的隐私保留参数估计方法的建筑集群聚合模型。文献[6]考虑气网延时的气惯性特性，提出了一种两层三阶段的负荷动态需求响应博弈模型。文献[7]建立了一种统一的综合能源系统热、气惯性模型，提出了考虑热、气惯性的综合能源系统多能源备用优化配置方法。文献[8]考虑气惯性、热惯性和各能源子系统相互依赖性，提出了考虑极端场景的综合能源系统整体韧性评估方法。文献[9]考虑热、气网络惯性和延时性，分析了多能源网络参数对可靠性评估的影响，建立了考虑多能源惯性的综合能源系统可靠性提升策略模型。上述文献对于热、气惯性特性进行了充分研究，但缺乏考虑综合能源系统不同场景下的电网惯性需求。此外，在多能源网络约束下，多能耦合设备如何参与电网惯性支撑还需进一步研究。

针对电网惯性需求或频率安全约束的综合能源系统优化，国内外学者已对热力、天然气、电力系统间的多能源惯性协调机制展开研究。文献[10]研究了热惯性与气惯性的相似性，并探讨了热、气惯性对于电力供应短缺的支撑潜力，提出了一种基于热、气惯性的频率响应策略。文献[11]提出了考虑综合能源系统电网惯性极限需求的优化求解方法，但未深入探讨不同时间尺度下电网惯性、热惯性、气惯性的对应协调关系。文献[12]研究了热、气惯性对于电网惯性和频率的支撑特性，提出了综合能源系统参与辅助服务策略，但未深入探讨多种多能源耦合设备参与电网惯性支撑特性，且忽略了热、气网络的能量变化。文献[13]研究了综合能源系统中多能源耦合设备的电网惯性支撑特性，提出考虑多能源耦合设备协同的送端电网惯量优化控制模型。在此基础上，文献[14]研究了综合能源系统中多能源耦合设备的惯性特性，提出了考虑多能源耦合设备惯量支撑的受端电网频率优化控制策略，但缺乏考虑多能源耦合设备的惯量参与度对于系统经济性的影响。上述文献对于部分多能源耦合设备提供的电网惯性支撑进行了探究，但对于多能耦合设备所能提供的惯性水平还未进行深入研究，且忽略了多能源惯性与多能源能量调节在不同时间尺度的对应关系与协调优化方法。

近年来，强化学习（Reinforcement Learning, RL）算法因具备自适应环境和任务的优点，被广泛应用于综合能源系统的能量管理中。然而，传统RL方法难以对复杂的安全约束进行有效建模，因此部分研究提出安全强化学习（Safe Reinforcement Learning, SRL）算法解决该问题[15]。文献[16]将有功无功优化问题表述为约束马尔可夫决策过程，采用安全强化学习约束策略优化（Constrained Policy Optimization, CPO）算法对配电网进行优化调度。文献[17]针对微能源网能源管理中的安全性问题，提出了一种基于李雅普诺夫的安全强化学习框架。尽管安全强化学习在理论层面为解决智能系统安全性问题提供了重要框架，但其应用仍面临一些挑战。一方面，在策略优化过程中，CPO削弱了智能体在复杂任务中对全局最优策略的探索潜力。另一方面，为满足安全性约束而构建的复合型网络结构显著增加了模型复杂度，存在计算效率与策略灵活性之间的矛盾。

尽管多能源耦合的物理机理日益明晰，但其传统优化面临安全-经济的高维决策维数灾挑战。安全强化学习采用“离线训练、在线应用”范式，将复杂优化计算前置，可实现在线快速决策。针对含扰动下频率、温度、压力的动态安全问题，安全强化学习的智能体可通过与环境交互持续学习长期安全代价，从而形成具有前瞻性的惯性储备与调节策略。此外，引入事件触发机制可在系统状态趋近安全边界时立即校正，实现经济性与安全性的自适应权衡。

本文针对综合能源系统电、热、气能源惯性不同时间尺度协调调度问题，提出综合能源系统多能源惯性多时间尺度优化调度方法，主要创新点如下：

1）建立多能源设备参与电网惯性支撑的“设备-惯性-能量”模型。与将多能源设备简化为固定惯量源或仅考虑能量平衡的现有模型不同，本文充分分析多能源设备参与度对热网/气网惯性的影响，并最终映射到其对电网惯量的等效特性。

2）提出基于热、气惯性容忍特性的多时间尺度能量协调策略。区别于需要高精度预测或忽略时间尺度差异的优化方法，本文分析热、气网络的大惯性特性对于电网短时能量波动的容忍特性，将电网的s级/min级惯性调节需求视为热、气网络min级/h级调度周期内可承受的能量缓冲。

3）构建基于事件触发的综合能源系统多能源惯性双层安全强化学习求解算法。为解决CPO等安全强化学习计算复杂且策略保守的问题，本文利用事件触发机制分析多能源惯性安全约束，仅在综合能源系统状态突破或接近安全边界时激活安全恢复策略，在安全区间内则执行高效的进化策略。

1 综合能源系统多能源惯性协调分析

综合能源系统和多能源惯性协调特性示意图如图1所示。综合能源系统中的多能源惯性可以分为电力系统惯性、热力系统惯性和天然气系统惯性（以下简称为电网惯性、热惯性、气惯性）。电网惯性、热惯性、气惯性分别表现为各能源子系统对于频率变化、温度变化、压力变化的抵抗能力[18]。由图1可知，综合能源系统中的电网惯性资源已不仅限于传统同步机组、光伏、风电，还扩展至热电联产（Combined Heat and Power, CHP）机组、储能、温控负荷、燃气轮机、电转氢、电转气等。

从图1中还可以看出，综合能源系统多能源惯性协调特性主要体现在以下两方面。一方面，热能、气能的调度时间尺度和传输时间尺度远大于电能，电能传输时间尺度一般为s级，热能和气能的传输时间尺度为min级或h级；电能的调度时间尺度一般为15 min或1 h，热能和气能的调度时间一般为1 h[8-10]。可依托热力与天然气子系统的大时滞惯性特性，为电力系统提供能量调节缓冲，但需解决多能源在不同时间尺度下的能量协调问题。另一方面，多种类多能源惯性资源也可为电网提供旋转惯量和虚拟惯量，鉴于热网、气网对短时波动具有一定容忍度，可优先调度多能源耦合设备为电网提供惯性支撑。同时，需要考虑多能源“源-荷-储”多样化惯性资源如何提供传统电网的等效惯量。因此，需统筹考虑能量调节与电网惯量两方面的多能源惯性协调，在多时间尺度能量调节时需要考虑电网惯性需求，在电网惯量优化时也需要考虑热、气的能量承受的允许范围。

2 考虑多能源耦合设备参与电网惯性支撑的多能源惯性协调

考虑多能源耦合设备参与电网惯性支撑的特性分析如图2所示。多能源耦合设备参与电网惯性支撑可分为在多能源同步机组和多能源非同步设备进行支撑。多能源同步机组可以通过控制其启停进行电网惯性或多能源能量支撑；而多能源非同步设备是以电力电子器件并网的多能源设备，可以通过控制变流器进行电网虚拟惯性支撑。但这两种方式都需要一定的热、气网络能量缓冲，这是因为要使得电网惯量在一定时间内维持某个数值，若增开或关停多能源同步机组，将引起热、气能量短时波动；若需要多能源非同步设备进行电网惯性支撑，其需要通过能量预留方式进行电网惯性支撑，所以也会引起热、气能量波动。

2.1 多能源耦合设备参与电网惯性支撑特性

电网惯性为发生扰动时系统对于频率变化的抗扰动能力，而电网惯量为电网惯性的量化值。电网惯量通常以机组的惯性时间常数或转子动能表示，单位分别为s和MW·s[11]。本文多能源耦合设备参与电网提供惯性支撑是指，在电网中与热网、气网耦合的多能源机组或设备为电网提供旋转惯量或虚拟惯量。

2.1.1 多能源参与的发电侧电网惯量支撑特性

在发电侧，综合能源系统中热电联产机组、燃气轮机和火电机组本质一样，都可为电网提供同步惯量，可表示为

式中，

、

分别为综合能源系统中热电联产机组或燃气轮机的机械功率标幺值和电磁功率标幺值；f和f*分别为综合能源系统频率和频率的标幺值；τCHP(t)为机组的惯性时间常数。

2.1.2 多能源储能对电网惯量的支撑特性

本文考虑多能源储能如储电系统、电动汽车、电转氢、电转气的惯性响应特性，可通过虚拟惯量方式为电网提供惯量。

由于储电系统和电动汽车在能量动态方程、频率-功率响应的物理等效性、惯量控制策略具有类似的特性，所以将二者的特性一并阐述。储电系统的能量存储量可以描述为

式中，γSOC0、ZES分别为储电系统的初始荷电状态和容量；uES、iES分别为储电系统的输出电压、输出电流；WES为储电系统储存的能量。

参考同步机组所具有的旋转动能，储电系统的能量存储量可重新描述为

式中，γSOC为储电系统的荷电状态； width=13,height=15

为同步角速度，rad/s；τES为储电系统的虚拟惯性时间常数。

因此，可将储电系统视为具有等效惯量等于 width=15,height=15

的同步机组。储电系统的惯量可描述为

式中，ΔγSOC为储电系统荷电状态变化量；JG,ES为储电系统等效同步机组的旋转惯量，kg·m2；ω和Δω分别为储电系统等效同步机组的角速度和角速度变化量，rad/s；EG,ES为与储电系统相同容量的同步机所存储的旋转动能；kG,ES为储电系统荷电状态与等效同步机组角速度的转换增益系数。

类比储电系统的电网惯量支撑模型，电转氢的惯量可描述[19]为

式中，τP2H为电转氢的虚拟惯性时间常数；WP2H为电转氢配套储氢系统储存的氢能对应的输入电能；JG,P2H为电转氢等效同步机组的旋转惯量；γSOH0、ΔγSOH分别为电转氢配套储氢系统的初始荷氢状态和荷氢状态变化量；ωP2H、ΔωP2H分别为电转氢等效同步机组的角速度和角速度变化量，rad/s；EG,P2H为与电转氢相同容量的同步机所存储的旋转动能；kG,P2H为电转氢配套储氢系统的荷氢状态变化率与等效同步机组角速度的转换增益系数。

类比储电系统的电网惯量支撑模型，电转气的惯量可描述为

式中，τP2G为电转气的虚拟惯性时间常数；WP2G为电转气配套储气系统储存的气能对应的输入电能；JG,P2G为电转气等效同步机组的旋转惯量；γSOG0、ΔγSOG分别为电转气配套储气系统的初始荷气状态和荷气状态变化量；ωP2G、ΔωP2G分别为电转气等效同步机组的角速度和角速度变化量，rad/s；EG,P2G为与电转气相同容量的同步机所存储的旋转动能；kG,P2G为电转气配套储气系统的荷气状态变化率与等效同步机组角速度的转换增益系数。

转换增益系数（kG,ES、kG,P2H、kG,P2G）反映了将电能/氢能/气能的存储变化通过多能源设备等效为机械动能变化的比例。直接对应于控制回路中虚拟惯性常数的设置值，可根据系统对惯量支撑的需求进行整定，典型整定范围一般在0.5～3.0之间[20-21]。而荷氢/荷气状态及其初始值影响设备可用于提供惯性支撑的能量缓冲容量。为保证设备安全运行和留有一定的调节裕度，实际运行范围通常限制在[0.2, 0.9][11-12]。

2.1.3 荷侧空调惯量支撑特性

利用虚拟同步机对空调进行惯性控制，可得到空调对综合能源系统惯量支撑特性为

式中，τAC为空调的虚拟惯性时间常数； width=19.5,height=15

、ωAC、ΔωAC分别为空调的阻尼、角速度和角速度变化量；∆PAC和PAC分别为空调在进行电网惯性支撑下的负荷功率变化和额定功率。

在综合能源系统负荷侧，热力子系统中的水泵、离心泵和天然气子系统中的加压泵等也可以为电网提供旋转惯量，其与同步机组的惯量支撑特性类似，这里不再赘述。

2.1.4 燃料电池惯量支撑特性

燃料电池惯量支撑特性与风、光的新能源发电通过虚拟同步控制类似，可以对电网进行惯量支撑，其惯量响应特性为

式中，

、τFC分别为燃料电池虚拟惯量响应支撑功率和惯性时间常数； width=20,height=15.5

为燃料电池额定功率；f0、Δf(t)分别为综合能源系统额定频率和频率偏差。

2.2 考虑热、气系统能量缓冲的多能源参与电网惯性模型

2.2.1 热力系统惯性特性及其与电网惯性协调特性

1）建筑物热惯性模型

建筑物室内温度的动态惯性特性为

式中，

为建筑围护结构及室内空气的等效热容； width=27,height=15

为建筑物室内温度；

为供暖系统提供的热量； width=34,height=15

为室内设备等产生的热量； width=23.5,height=15

为建筑围护结构的等效热阻； width=30,height=15

为室外温度。

2）热网热惯性模型

热网的热惯性主要来源于管道内的水体和管壁的储热。管道温度的热动态变化可简化为

式中，

为管道段包含水和管道的总热容；Tin和Tout分别为热网管道的入口和出口温度； width=24.5,height=15.5

、

分别为管道内水的平均温度和环境温度； width=14.5,height=15

为热网供水流量；

为水的比热容；U为管道的总传热系数；B为管道表面积。

3）热力子系统对电网惯量的支撑特性

考虑热网和建筑物热惯性，燃气轮机、热电联产机组、温控负荷、水泵也可参与电网惯量支撑。在一段时间内，考虑热力系统约束下可调节的电网惯量可表示为

式中，

为热力系统约束下可调节的电网惯量； width=34,height=17.5

、

、

、

分别为CHP hc、空调ac、水泵hp、燃气轮机gt提供的电网惯量； width=24.5,height=15

、

、

为考虑热惯性后可调节设备的电网惯量支撑系数；NCHP、NAC、NhPump、NGT分别为CHP、空调、水泵、燃气轮机的数量。

需要满足如下约束条件：

式中，

为建筑物室内或供热系统期望达到并维持的目标温度； width=39.5,height=15.5

为最大允许温度偏差； width=35,height=15.5

、

分别为供水温度、供水温度下限和上限； width=34,height=15

、

分别为回水温度、回水温度上限和下限。

2.2.2 天然气系统惯性特性及其与电网惯性协调特性

天然气管道的动态过程可以用式（13）描述，体现气体压缩性和管道存储能力带来的惯性。

式中，

为气网管道段内的平均压力； width=25,height=15

、

分别为气网管道入口和出口的流量；D、l分别为气网管道的直径和长度； width=8,height=10.5

为气体压缩系数。

对于气网中的某个节点gi，其压力变化由流入流出该节点的所有流量决定，即

式中，Ggi为气网节点gi的等效气容，与连接到该节点的管道容积和气压有关； width=26.5,height=15.5

为节点gi的压力；

为从所有相连节点gj流入节点gi的流量之和； width=31,height=15.5

为气源注入节点gi的流量； width=25,height=15.5

为负荷从节点gi流出的流量。

考虑气网气惯性，可使燃气轮机、电转氢、电转气、燃料电池、气泵也可参与电网惯量支撑。在一段时间内，考虑气网约束下可调节的电网惯量可表示为

式中，

为考虑气网约束下可调节的电网惯量； width=34,height=17.5

、

、

分别为CHP hc、燃料电池fc、气泵gp、燃气轮机gt、电制氢p2h提供的电网惯量。 width=24.5,height=15.5

、

为考虑气惯性后可调节设备电网惯量支撑系数；NFC、NgPump、NP2H分别为燃料电池、气泵、电制氢的数量。

需要满足如下约束条件：

式中，

为气网节点gi的最小允许压力； width=27,height=15.5

为气网节点gi的最大允许压力； width=35,height=15

、

分别为气源点的流量、下限和上限。

2.3 考虑多能源耦合和多能源惯性后的电力子系统惯性特性

2.3.1 考虑多能源参与度的电网惯量特性

多能源参与电网惯量支撑时可能因为自身利益不一定会以自身可提供的最大惯量参与支撑，多能源同步机组可以调控其启停来参与，以电力电子器件并网的多能源设备可能会控制其参与度来参与电网惯量支撑。考虑多能源耦合设备参与后，综合能源系统的电网惯量可表示为

式中，HSYS、HSG、HMEG、HVH、HMEVH分别为综合能源系统中电力子系统的惯量、传统同步机组惯量、多能源同步机组惯量、可再生能源机组虚拟惯量、以电力电子器件并网的多能源设备提供的等效电网惯量； width=24.5,height=17.5

、

、

分别为传统同步机组sg、可再生能源机组vh、多能源同步机组meg、多能源设备mev的额定容量；τSG,sg、τVH,vh、τMEG,meg、τMEVH,mev分别为传统同步机组sg、可再生能源机组vh、多能源同步机组meg、以电力电子器件并网的多能源设备mev的惯性时间常数；sSG,sg、sVH,vh分别为传统同步机组sg、可再生能源机组vh的启停状态；sMEG,meg、 width=36.5,height=15.5

、χMEVH,mev分别为多能源同步机组meg、多能源设备mev的启停状态和该设备参与电网惯量支撑的参与度。

2.3.2 考虑多能源参与度的电网惯性支撑功率

针对综合能源系统各设备的电网惯性响应，需要考虑多能源对电网惯性支撑的参与度。考虑多能源设备参与惯量响应的惯性支撑功率为

式中，ΔPMS、ΔPSG,sg、ΔPMEG,meg、ΔPVH,vh、ΔPMEVH,mev分别为综合能源系统中电力子系统的惯性支撑功率、传统同步机组sg的惯性支撑功率、多能源同步机组meg的惯性支撑功率、可再生能源机组vh的惯性支撑功率、以电力电子器件并网的多能源设备mev提供的等效电网惯性支撑功率； width=19,height=15

为以电力电子器件并网的多能源设备mev的一次调频调差系数。

3 考虑多种能源多时间尺度能量调节的多能源惯性协调

电、热、气系统传输时间尺度不一致，可基于热、气惯性大时间尺度与电网短时间尺度相协调，需要综合研究多能源多时间尺度调度策略。设调度时间尺度∆t的起止时刻分别为tk和tk+1，热力系统温度和天然气系统压力、流量等状态量x在∆t内平均值可以表示[22]为

式中，ta为离tk左侧最近的热、气系统调度周期起始时刻；tb+1为离tk+1最近的热、气系统调度周期结束时刻；Ωg、Ωh分别为热、气系统调度起始/结束时刻的集合。

由于热、气系统时间尺度一般远大于电力系统，所以热、气系统调度时间尺度可能完全包含∆t，或者可能使得ta+1或tb在∆t内。令∆t1=tb-tk、∆t2=tk+1-tb，热、气系统的状态量函数可简化为

式中，y为辅助函数； width=8,height=15

为热、气系统的1个时刻点。

根据式（24），对于气网的压力和流量关系可表示为

式中，

、

分别为∆t时间内气网支路首端流量的平均值和动态值；qL为气网支路末端流量； width=32,height=15.5

、

分别为∆t时间内气网支路末端压力的平均值和t时刻初值；p0为气网支路首端压力；x为辅助参数，x取值为1～N的整数；、Bg分别为天然气网络管道阻力系数、管道截面积；vg、vvol分别为天然气输运速度、燃气传播速度；ψg为受气网压力和流量影响的参数；gn、yng、E1n为辅助函数；τg为气网调度时间尺度。

根据式（26），式（27）和式（28）可以进一步表示为

式中，

、

分别为气网在

和

时刻的流量；

、

分别为气网在

和

时刻的压力。

将电网、气网调度时间尺度τe和τg代入式（26）和式（27）中的∆t，可分别得到电网调度和气网调度时对应的气网状态量。

根据式（23），对于热网的温度关系可表示为

式中，

、

分别为∆t时间内热网节点hj的温度平均值和t时刻动态值； width=13,height=15

为热网节点hi的温度动态值； width=32,height=17.5

、

分别为t时刻热网节点hj由边界条件和初始条件决定的温度值； width=32,height=17.5

、

分别为t时刻热网节点hj由边界条件和初始条件决定的温度分量平均值； width=24.5,height=17.5

和

为节点hi、hj间路径d的温度传输因子； width=13,height=15

、

、

为辅助函数；

为热网管道lh-vt处的初始条件；v为热网工质流速； width=19,height=17.5

、ξz分别为热网节点hi、hj间和管道z的传输延时； width=19,height=17.5

为热网节点hi、hj之间传输路径X的传输延时； width=26.5,height=17.5

为热网节点hi、hj之间传输路径X的集合； width=15,height=13

、

分别为热网的支路集合和节点集合； width=11.5,height=15

为辅助系数；

、

分别为热网节点hi、hj间路径X的网损系数和传热系数； width=24.5,height=19

、

、

分别为第a、y、z条管道末端到节点hj之间的传热系数； width=19,height=19

、

分别为第a、z、y条管道末端到节点hj之间的网损系数； width=20.5,height=19

为路径X第y条管道首端到节点hj之间的传输延时； width=19,height=19

为第a条管道末端到节点hj之间的传输延时； width=11.5,height=15

、

分别为第a、z条管道的传输延时。

将电网、热网调度时间尺度τe和τh代入式（30）中的∆t，可分别得到电网调度和热网调度时对应的热网状态量。

4 基于双层安全强化学习的综合能源系统多能源惯性协同优化调度与求解

本文基于安全强化学习（Security Reinforcement Learning, SRL）的综合能源系统惯性协调优化可以被建模为马尔可夫决策过程，进而提出一种基于双层安全强化学习的多能源惯性协调优化方法。上层SRL优化模型以综合能源系统短时间尺度下电网运行经济性为目标，并满足电网的惯性安全需求；下层SRL惯性优化模型以综合能源系统长时间尺度的热、气子系统的热、气惯性成本最小为目标，并满足热网、气网的安全需求。

4.1 基于双层安全强化学习的多能源惯性协调优化调度模型

4.1.1 考虑电网惯性的上层SRL多能源惯性协调优化

1）上层SRL环境空间

上层SRL环境空间包括综合能源系统中的电网惯性市场价格、风电出力、光伏出力、电负荷变化、频率变化、系统的扰动功率等。

式中，

为上层SRL环境空间；cint(t)为电网惯性市场价格；PPV(t)、PWT(t)、PEload(t) 分别为综合能源系统的光、风、电负荷；RoCoF(t)为综合能源系统、频率变化率；PCS(t)为综合能源系统的扰动功率；ΔPdb(t)为考虑下层SRL后系统扰动量的变化量。

2）上层SRL动作空间

上层SRL的动作主要为综合能源系统多能源机组或多能源耦合设备参与电网惯性调节的惯性支撑状态和参与度。上层SRL动作空间为

式中，

为上层SRL动作空间；PSG,sg、PMEG,meg、PMEVH,mev分别为传统同步机组sg、多能源同步机组meg、以电力电子器件并网的多能源设备mev的出力。

上层SRL动作空间还应满足以下约束：

式中，

、

分别为综合能源系统的电网节点j注入的有功功率和无功功率；上标ex、G、GT、CHP、FC、P2G、P2H、EB、EV、ES、AC、WT、PV、load分别为综合能源系统中的电网购电、传统同步机组、热电联产机组、燃气轮机、燃料电池、电转气、电转氢、电锅炉、电动汽车、储能系统、温控负荷、风电、光伏和电负荷。利用锥松弛的方法对综合能源系统潮流进行优化求解，如文献[11]所示。

3）上层SRL奖励函数

电力市场机制已逐步将电网惯性资源纳入交易范畴[23]。进行电网惯性支撑时，则需要对其支付一定的辅助服务补偿。本文上层多能源惯性多时间尺度优化策略是在电网惯性需求约束下，实现考虑多能源参与电网惯性调控成本最优。上层SRL模型的经济优化成本可表示为

式中，

为上层SRL模型的经济优化成本；Cload(t)、Cab(t)、CST(t)分别为维持系统稳定所需的切负荷成本、新能源弃电成本和多能源惯性资源参与电网惯量支撑的状态变化成本； width=31,height=15.5

(t)为考虑下层SRL调整后对上层的增益； width=17.5,height=15

为储能的惯性调节成本； width=39.5,height=15

为以电力电子器件并网的多能源设备的惯性调节成本；ssg(t)、smeg(t)分别为综合能源系统传统同步机组sg的启停状态、多能源同步机组meg的启停状态；cst,sg、cst,meg分别为传统同步机组sg、多能源同步机组meg因电网惯性支撑的启停价格；αES,es、βES,es分别为储能es进行惯性响应的能量预留比例和最大预留比例； width=27.5,height=15.5

为储能es在t时刻的电网惯量支撑参与度； width=23.5,height=15.5

为储能es的容量；

的为以电力电子器件并网的多能源设备mev的容量； width=26.5,height=15

为以电力电子器件并网的多能源设备参与电网惯量支撑的启停价格； width=39.5,height=15.5

为以电力电子器件并网的多能源设备mev在t时刻的参与电网惯性响应的参与度； width=20,height=17.5

为电网节点i在t时刻的负荷； width=15,height=15.5

为电网节点i在t时刻的切负荷率；oWT(t)、oPV(t)分别为弃风率和弃光率； width=25,height=15

为频率补偿成本系数； width=19,height=17.5

为电网节点i在t时刻的切负荷惩罚成本系数；cWT、cPV分别为弃风、弃光的惩罚成本系数。

上层SRL针对电网惯性成本优化后的奖励函数可描述为

式中，

为上层奖励函数。

4）上层SRL代价函数

上层SRL代价函数为电网惯性水平不足以及频率、频率变化率越限所产生的安全代价。

式中，

为上层SRL的代价；Cfre、CIN分别为综合能源系统频率或频率变化率惩罚成本和惯量不足惩罚成本；Hhh、Hs分别为综合能源系统电网高惯量水平边界和当前电网惯量水平；cIN为惯量不足惩罚成本系数；fN-、fN+和RoCoFN分别为系统频率允许的上、下边界和频率变化率允许的最大值；cf-、cf+和cRoCoF分别为系统频率越下限、越上限和频率变化率越限的惩罚系数。

上层SRL代价函数的约束如下。

（1）频差、频率变化率偏差约束

式中，RoCoFmax为综合能源系统发生扰动后t时刻的频率变化率最大值；DPSG,t-1、DPES,t-1和DPMEG,t-1分别为t-1时刻传统同步机组、储能系统和多能源同步机组进行一次调频时的功率变化量；DPMEVH,t-1为时以电力电子器件并网的多能源设备进行频率响应的功率变化量；PCS为扰动量； width=13,height=11.5

为电力子系统阻尼；Df、Dfmax与Dfmin分别为综合能源系统发生扰动后的频率变化与频率变化最大值和最小值。

（2）高惯量水平约束

综合能源系统电网惯量充裕度判别式可表示为

式中，

为t时刻综合能源系统的电网惯量极限需求；Hw(t)、Hw,IS(t)分别为t时刻综合能源系统电网惯量和安全裕度为Kw,IS时的电网惯量；Kw,IS为场景w的综合能源系统的电网惯量充裕度。

当Kw,IS大于电网惯量充裕水平的临界点时系统才属于惯量充裕状态，设定Kw,IS为电网高惯量充裕水平的临界点，有

式中，

、

和

分别为综合能源系统的电网惯量对应的高惯量区间、中惯量区间、低惯量区间； width=15.5,height=15.5

为综合能源系统中电网惯量充裕度位于高惯量区间和中惯量区间的临界系数； width=11.5,height=15

为综合能源系统电网高惯量区间和中惯量区间所对应频率变化率的区间临界值；RoCoF(Hcu)、RoCoF(HEL)分别为综合能源系统的电网惯量在高惯量区间边界值Hk和中惯量区间临界值HEL对应的瞬时频率变化率。

4.1.2 考虑热网气网能量调节的下层SRL多能源惯性协调优化

1）下层SRL环境空间

下层SRL针对综合能源系统热网、气网在不同时间尺度进行能量协调，使综合能源系统运行成本最小。下层SRL环境空间为

式中，

为下层SRL环境空间；sUp为上层SRL的综合能源系统机组组合状态；cg,pu为气能购买成本系数；PHload、PGload分别为综合能源系统的热负荷、气负荷； width=24.5,height=15.5

为气网节点gi的流量。

2）下层SRL动作空间

根据上层SRL的机组组合状态，调整各多能源同步机组出力、多能源耦合设备的出力、热网储能出力、气网储能出力等调控资源对多能源能量进行优化，有

式中，

为下层SRL动作空间； width=32,height=17.5

、

、

、

分别为燃气轮机、电转气、电转氢、电锅炉、温控负荷、热电联产机组、燃料电池、电动汽车、储能系统在电网节点i的出力； width=29.5,height=15

、

分别为热网和气网的储能功率。

下层SRL动作空间还应满足各设备出力约束和上下爬坡约束，但此类约束文献较多[7-10]，在此不再赘述。

3）下层SRL奖励函数

下层SRL考虑多能源能量调节、多能源网络能量调节、多能源网络损失的优化成本为

式中，Cdo、CRE、Cbuy、Cop分别为下层SRL综合能源系统的运行成本、热网和气网网络调控成本、能源购买成本、运维成本；CE、CH、CG分别为购电、购热、购气系数；Pex,E(t)、Pex,H(t)和Pex,G(t)分别为综合能源系统从外部能源网的买电功率、买热功率、买气功率；cHN、cGN分别为热网网络储能调控价格、气网网络储能调控价格；KH,loss、KG,loss分别为热网、气网能量损失价格；Tin,hk(t)和Tout,hk(t)分别为热网管道hk的入口和出口温度；pin,gk(t)和pout,gk(t)分别为气网管道gk的入口和出口压力；Mh为热网工质的传热系数；CH,loss、CG,loss分别为热网和气网损失成本；CH,RE、CG,RE分别为热网储热和气网储气所需的调节成本；NH和NG分别为热网和气网管道数； width=22,height=15.5

、

分别为传统同步机组sg的启停状态、多能源同步机组meg、为以电力电子器件并网的多能源设备mev的的运维成本系数；IG,loss为气网损失系数；PHN和PGN分别为热网储热功率和气网储气功率。

下层SRL针对能量调节成本优化后的奖励函数可描述为

式中，

为下层SRL奖励函数。

4）下层SRL代价函数

下层SRL代价函数为热网、气网温度、压力越限所产生的安全代价。

式中，

为下层SRL代价函数；CT(t)、Cpa(t)、Cbuild(t)分别为热网温度越限、气网压力越限、建筑物温度越限的惩罚成本；DThi(t)、Dpgi(t)、DTbuild(t)分别为热网温度越限值、气网压力越限值、建筑物温度越限值；cT、cpa、cbuild分别为热网温度越限惩罚系数、气网压力越限惩罚系数、建筑物温度越限惩罚系数。

下层SRL代价函数的约束如下。

（1）热网温度、流量约束。

式中，Whi(t)为热网节点hi的供热能量；mhk(t)、 width=27.5,height=15

、

分别为热网管道hk的流量和流量上、下限；Thi,RE(t)为热网节点hi的回水温度。

（2）气源点出力约束式（16）。

（3）同时需要满足式（12）、式（16）、式（26）～式（34）。

4.2 基于事件触发型安全强化学习的多能源惯性协调优化求解

对于本文所探究的多能源惯性多时间尺度协调调度方案，需要判断各个网络调度周期内是否满足电网、热网、气网的安全约束。若以事件触发和安全强化学习相结合的优化方法，可以分为发生安全越限状态和未发生安全越限状态，并分别采用不同的优化方法，能够大幅降低综合能源系统优化调度的计算时间，并在一定程度上提高计算性能。

在安全强化学习过程中，要保证综合能源系统在越限代价尽可能小的前提下获得最大奖励，可以表示为

式中，Yc为综合能源系统电网、热网、气网安全代价的阈值；Jc(π)为在策略 width=11.5,height=11.5

下的综合能源系统电网、热网、气网的代价函数；E表示期望函数； width=5.5,height=10

为折扣因子；

为奖励函数值。

本文提出基于事件触发的安全强化学习算法求解多能源惯性协调优化调度模型，综合考虑电网、热网、气网的安全约束。将综合能源系统安全事件触发的分层安全策略分为进化策略和安全恢复策略。进化策略负责综合能源系统安全策略的不断学习和更新，力求快速获得高额奖励；安全恢复策略在确定综合能源系统任一子系统发生安全越限时，设置安全约束并恢复至安全状态，触发事件为李雅普诺夫安全状态函数Lπ(s)，具体如图3所示。

综合能源系统多能源惯性优化的触发事件函数和触发阈值可分别表示为

式中，

、

、

分别为多能源惯性优化的触发函数、李雅普诺夫评价函数和代价值；SAM为经验样本数；s、a分别为综合能源系统的状态值、动作值。

在该策略中，上层SRL和下层Actor网络分别输出多能源机组和设备的机组组合、多能设备和热网气网储能的动作，两层Critic网络负责评估对应动作价值。以综合能源系统动作价值期望为目标，即

式中，S、A、µ分别为综合能源的系统状态量、动作、确定性策略函数参数； width=15.5,height=15.5

为价值函数；J为目标函数。

基于策略梯度优化目标函数为

式中，θ为策略网络参数； width=10.5,height=11.5

为策略梯度。

Critic网络以集中式进行更新，并以TD error对网络进行优化，Critic网络更新的损失函数可表示为

式中，

为价值网络评价函数；y为目标动作价值函数， width=91.5,height=19

，

为目标Critic价值网络下的策略函数参数， width=11.5,height=13

、

分别为目标Critic价值网络下的系统状态量、动作， width=13,height=11.5

为目标Critic价值网络参数； width=10.5,height=10.5

为当前Critic价值网络参数。

本文采用双Critic网络来降低动作价值高估误差，基于双Critic网络生成的目标动作价值yc为

式中，ε、b、分别为微噪声和噪声极值和方差；clip为数据截断函数；N为正态分布。

4.2.2 安全恢复策略

由于进化策略网络缺乏综合能源系统安全性评价，所以需要构建含安全约束的安全恢复策略，即在传统Actor-Critic基础上增加用于安全约束的李雅普诺夫评价网络，并输出基于李雅普诺夫评价函数Lc(s,a)的综合能源系统运行决策代价。当前代价网络用来评估综合能源系统的动作和决策，目标代价网络用来抑制其高估问题。

李雅普诺夫评价函数Lc(s,a)和状态评价函数Lπ(s)的关系可表示为

基于Bellman方程，李雅普诺夫评价函数的当前代价值与未来代价值的关系可表示为

式中，F(s,a)、 width=41,height=17.5

分别为当前非负安全约束函数和目标李雅普诺夫评价函数； width=10,height=13

、

分别为目标李雅普诺夫评价函数的状态值、动作值。

更新策略函数需要计及安全约束，最大化的目标价值为

求解带约束目标函数比较复杂，本文利用拉格朗日乘子法将约束融合到目标函数中，有

式中，

为策略网络目标；

、分别为综合能源系统多能源惯性协调调度的拉格朗日乘子和安全系数；UD为综合能源系统运行的非安全经验池。

安全恢复策略下目标函数的梯度可表示为

式中，µθ为策略参数为θ的当前策略； width=15,height=15

为参数为θ时的策略梯度； width=15.5,height=15

为价值网络的价值函数； width=25,height=15

为Actor网络目标函数。

此外，可根据最小化损失更新李雅普诺夫评价函数，该损失函数为

式中，

为损失函数；Ol、ys分别为从非安全经验池中抽取的样本量和目标代价函数。

最后，基于策略梯度法对拉格朗日乘子的值进行更新，使式（66）的值最大。

式中，

为安全恢复策略下的目标函数。

4.2.3 基于Lyapunov函数的安全稳定性

为保证系统在扰动下不越限，需满足以下不等式条件。假设李雅普诺夫评价函数Lc(s,a)是正定的，且其梯度有界，对于任意状态s和动作a，存在常数 α＞0、β＞0和γ＞0，使得

式中，u为扰动或模型不确定性； width=11.5,height=10

、

、z为辅助系数。

当Lπ(s)≥Lthreshold时，触发安全恢复策略。该阈值需满足

式中，

为触发阈值；

为扰动上界，以保证当状态接近安全边界时，事件触发机制能及时激活恢复策略。

在安全恢复策略下，策略更新（式（63））使李雅普诺夫函数减小，即

式中，η为学习率，η＞0。通过反复迭代，系统状态可被拉回安全区域。

本文所提出的基于事件触发的双层安全强化学习框架采用交替训练的方式进行优化，以协调上层电网惯性优化与下层热网气网能量策略的学习过程，缓解因上层策略更新导致的下层环境动态变化问题。事件触发主要是预先设定安全阈值，综合了电网的频率偏差、惯量水平、热网温度越限程度以及气网压力越限程度等多重安全指标。一旦触发事件发生，算法的执行流程将从常规的进化策略立即切换至安全恢复策略。具体训练流程如图4所示。

5 算例仿真

5.1 算例基础数据

本文构建修改的IEEE 30节点电力子系统、20节点天然气子系统和14节点热力子系统仿真系统，以验证本文综合能源系统多能源惯性多时间尺度优化方法的有效性，算例系统结构如图5所示。图5中，NG代表气网节点，N代表热网节点。

采用以下五种方案进行对比分析，表1为五种对比方案的分类。方案1为传统综合能源系统经济优化调度方法，电网惯量考虑风电、光伏虚拟惯性；方案2在方案1基础上，考虑多能源参与电网惯性支撑的多能源惯性协调调度；方案3在方案1基础上，考虑热、气惯性的多时间尺度优化调度；方案4为考虑电网惯性与能量调节的多能源惯性多时间尺度优化调度；方案5在方案4基础上考虑了基于事件触发-强化学习的多能源惯性多时间尺度优化调度。取C1为0.85，即取 width=15.5,height=15.5

为0.17进行仿真，方案3中Kw,IS设置为1.2。

综合能源系统机组或设备的功率上下限和电网惯性时间常数见表2。综合能源系统的多能源负荷、风光出力以及波动范围如附图1所示。设定电力子系统的频率允许范围在49.8～50.2 Hz，热网温度和气网压力变化范围分别在0.97(pu)～1.02(pu)和0.73(pu)～1.16(pu)。阈值mc是根据综合能源系统电网、热网、气网的安全约束设定。选取李雅普诺夫触发阈值为分布的85%分位点。安全系数υ和拉格朗日乘子φ初值分别取0.95和0.1，可通过梯度更新式（67）自适应调整。多能源价格及惯性价格如附图2、附图3所示。综合能源系统各时段预想扰动功率见附表1。电、热、气的调度时间尺度分别取15 min、30 min、1 h。设综合能源系统状态如功率、流量、温度等完全可观测，且电、热、气子系统模型误差有界。

本文的双层SRL中，Actor网络、Critic网络、李雅普诺夫网络的学习率均设为0.000 1，折旧因子为0.98，单次抓取样本数量为512，网络软更新因子均设置为0.01，安全经验池和非安全经验回放池的容量均设为106。设非安全经验池UD包含足够多样的样本，能覆盖典型越限场景。本文设置阈值缩放系数为0.85。软件环境为Python 3.10和PyCharm 2022.2.2。

5.2 多能源惯性多时间尺度优化结果对比

使用本文强化学习方法进行5次独立重复实验，以下结果为5次实验的均值。五种方案下的电网惯量优化结果如图6所示。从图6中可以看出，夜间的电网惯量需求偏小，日间的电网惯量总体需求较高。方案1的电网惯量水平在夜间较高，而在日间较低，这是因为在夜间风电可提供较大的虚拟惯量，而日间由于光伏的电网惯性时间常数小，同时由于系统仅考虑经济优化，日间可提供的电网惯量水平总体较低。方案2为考虑电网惯性的多能源惯性优化，又因为不考虑多时间尺度优化，因此方案2以1 h内最大扰动对这1 h内的电网惯量进行优化，所以方案2在该小时内夜间的电网惯量可能过高，易造成惯量冗余。另一方面，方案2仅考虑电网惯量极限需求，未考虑电网高惯量下的安全裕度，使得系统惯量不在高惯量区间，这就容易造成在该小时内发生最大扰动时电网惯量不足的情况。方案3考虑热、气惯性的多时间尺度能量优化，但不考虑电网惯性需求，所以方案3也是仅考虑经济性最优运行。由于方案3电网调度以每15 min为时间尺度进行优化，所以对比方案1，在同1 h内的个别时间提供的电网惯量会更小。方案4为考虑电网惯性需求的多能源惯性多时间尺度协调，从图6中可看出方案4都正好处于高惯量区间内，且考虑多时间尺度优化后，电网调度以每15 min为时间尺度进行优化，在1 h内可能只有1个15 min的扰动较大，所以在同1 h内在部分时段方案4的电网惯量小于方案2。方案5在方案4基础上考虑了事件触发下的安全强化学习，通过不断学习探索综合能源系统状态，判断频率越限可能的情况。由于风光和多能源负荷存在一定的不确定性，会加大系统的扰动量，所以在个别时段电网高惯量区间边界也会增大频率越限风险，这样方案5部分时段电网惯量会高于方案4。

图7为五种方案下综合能源系统发生频率越限或者频率变化率越限的概率。结合图6可看出，方案1夜间电网惯量处于高惯量区间，所以频率或频率变化率越限风险低。而日间电网惯量水平大多处于低惯量区间，频率或频率变化率越限风险较高。方案2考虑了电网惯性需求，但结合图6可以看到由于未考虑多时间尺度，很多时段是处于高惯量和低惯量之间，这时若发生大扰动情况，还是有一定的频率和频率变化率越限风险。方案3由于未考虑电网惯性，但其考虑多时间尺度后，同1 h内部分时段可调整电网惯量，所以总体频率风险小于方案1。方案4考虑多能源惯性多时间尺度协调，能够大幅降低系统发生频率越限风险。方案5在方案4的基础上，在考虑事件触发下的安全强化学习后，不仅考虑了电网惯量安全约束，也不断学习频率和频率变化率越限事件，所以方案5的发生频率或频率变化率越限的风险最小。

为验证本文方法对频率稳定的有效性，以11:15时刻系统发生扰动的场景为例，对比五种方案下的频率稳定性如图8所示。从图8中可以看出，方案1由于此时电网惯量不足，会使频率快速跌落。方案2虽然考虑了电网惯性需求，但未考虑惯性安全裕度，仍然会发生频率越限。方案3考虑能量的多时间尺度协调，对比方案1可以更好地调整电网惯量，所以频率偏差小于方案1。方案4考虑多能源惯性多时间尺度后，考虑多能源参与和热、气系统对电网惯量支撑，在大扰动发生时计及源荷波动后还是会越限一小段时间。方案5考虑事件触发下的安全强化学习后，能够准确感知频率安全裕度，提高频率稳定性。

图9给出了五种方案下的建筑物温度、热网储热和气网储气结果。方案1不考虑热、气惯性，所以热、气储能能力未被有效利用。方案2考虑热、气惯性后，在日间可以增开燃气轮机、热电联产机组，或提高燃料电池、空调等设备的电网惯性参与度为电网增加惯量，其中多产生或多消耗的热能和气能可以在热网或气网中被存储或释放。方案3在考虑热、气惯性多时间尺度优化后，气能以每30 min进行优化，能够更精细地对能量进行调节。在夜间热负荷较高时热网可以放热，从而降低系统热负荷、热电耦合强度和热电机组出力，提升风电并网空间。类似地，气网可以在弃风时段大量储气，在气负荷高峰时段释放能量。方案4考虑多能源惯性的多时间尺度优化后，则热网气网可为电网惯性支撑进行能量超前调节，热网在17:00后进行放热，升高室内温度，可减轻夜间燃气轮机的开机数。同时气网在夜间储气较多，可为日间燃气轮机和燃料电池多开机提高电网惯量。方案5考虑了热网气网的安全约束，建筑物温度会严格大于或等于20℃和小于或等于25℃。热网气网的储能也会在温度和压力允许范围内最大化储能。所以方案5中的热、气储能功率不会过高，可通过增加网络储能放能的时间来满足能量需求。

各机组参与电网惯量支撑状态如图10所示。从图10中可以看出，方案5考虑多能源耦合后，WT2支撑几乎不参与电网惯量支撑，且WT3完全不需要参与电网惯量支撑。这是因为方案2考虑多能源耦合后，优先采用多能源进行电网惯量支撑，可以减少新能源的电网惯性支撑水平，并降低弃风和弃光。方案2在考虑电网惯性的多能源惯性优化后，由于热网气网的大储能特性，在日间能够促进CHP机组和热电机组多开机；同时夜间可以少开CHP2，减少电网惯量冗余。方案5还能够以综合能源系统内部多能源设备进行电网惯量支撑，减少了对外电网惯量支撑的依赖。

结合图9和图10可以看出，在方案2采用多能源协调后，电网和热网气网的调度时间尺度分别为15 min、30 min、1 h。热网气网的长时间尺度惯性能够容忍电网的短时调节，多能源设备对电网惯量支撑时产生额外的能量不平衡可由热网气网承担。

方案5的电能平衡、气能平衡、热能平衡如图11所示。

结合图10和图11，可以看出多能源机组或设备参与电网惯性支撑后，也需要参与能量协调。考虑多能源惯性多时间尺度协调后，电能调度周期为15 min，对比传统调度周期为1 h的情况，能够对电网能量进行精细化调节。方案5考虑多时间尺度的多能源惯性协调后，电网惯性仅需满足1 h内最大扰动情况。同时考虑事件触发的双层安全强化学习方法，可利用储能、电转氢、燃料电池等设备共同进行能量-电网惯性的协调，并可降低购能成本。

从图11b和图11c中可以看出，方案3的气网调度周期为30 min，热网的调度周期为1 h。对比热网与电网的耦合程度，气网与电网的多能耦合设备对于电网惯性支撑得更频繁，同时气网惯性时间一般小于热网，所以需要气网的时间尺度分辨率小于热网。此外，热网、气网的能量长时间尺度惯性特性能够对电能短期调控具有容忍性。在电网需要较高惯量时段以及气负荷峰时段时，气网可以释放能量，并通过电气电、电氢电能量流为电网提供惯性支撑和能量调节。而热网考虑多能源惯性多时间尺度协调后，可以综合平衡每1 h内多能耦合设备所生产或消耗的热能。日间燃气轮机多产生的热量可以存储在热网中，在热负荷高峰时再放热，可以配合电锅炉、热电联产和燃气轮机联合供热，提高能源利用率。

表3为不同方案的优化成本结果对比。方案1不考虑多能源惯性，但夜间风电出力高且热负荷也处于峰值，燃气轮机和热电联产机组受以热定电限制，会使得电出力仍会维持较高水平，导致系统的弃风成本较高。同时仅依靠新能源虚拟惯量会导致电网惯量不足。方案2考虑多能源参与电网惯性后，频率或频率变化率越限成本明显降低。方案3考虑热、气惯性后，虽然购能成本明显下降，但未考虑电网惯性约束，频率或频率变化率越限成本仍较高，使得总成本大于方案2。方案4考虑了多能源多时间尺度惯性，虽然增大了电网惯性调节成本、热、气惯性调控成本，但使得频率或频率变化率越限成本明显下降。方案5在方案4基础上，考虑了事件触发机制，计及电、热、气惯性的安全裕度，能够进一步降低频率和热、气网络越限成本。

同时在表3中可以看出，某些成本项在不同方案间呈现非单调变化，这深刻反映了综合能源系统多目标优化中的权衡与矛盾，同时也体现了本文所提方法的优势。现对关键成本项分析如下：

1）频率越限成本方面。方案3的频率越限成本远高于方案2，这主要源于两者优化目标的根本差异。方案2以保障电网惯性安全为首要目标，虽牺牲了部分经济性，但有效地稳定了频率。方案3则致力于全系统经济性最优，通过多时间尺度能量协调降低了购能成本，但其调度过程未考虑电网惯性需求，导致系统惯量水平普遍偏低，抗扰动能力弱，从而显著推高了频率越限风险与成本。这体现了经济性与电网安全性之间的权衡。

2）热、气网络越限成本方面。方案3与方案4的此项成本较高，而方案5极低。这是因为在方案3和方案4的优化模型中，热、气网络安全约束的优先级相对较低或在求解中被大量违背。而方案5引入了基于事件触发的安全强化学习机制，其安全恢复策略能主动地将热网温度和气网压力维持在安全边界内，从根本上抑制了越限事件的发生。

为分析不同电、热、气时间尺度对综合能源系统运行成本（奖励函数）和越限成本（代价函数）的影响，设置以下四种模式进行对比，不同电、热、气时间尺度对奖励函数、代价函数和仿真时间的结果见表4。表4中数据为5次独立仿真结果均值与标准差。

从表4中可以看出，电网时间尺度越小，综合能源系统代价函数就越小，但仿真时间增大的速度越快。但综合来看，电、热、气时间尺度分别为15 min、30 min、1 h时的运行成本最低。这是因为如果电网时间尺度设置得过小，会使系统的机组、设备频繁启停，导致启停成本过高。同时，系统需要大量的储能及备用设备运维成本。另一方面，电网的扰动时间尤其是大扰动难以在极短时间内精准预测。此外，电网时间尺度设置过小会使得仿真时间过长，对于调度部门可能难以接受。同时可以看出，采用电、热、气时间尺度分别为15 min、30 min、1 h时的奖励函数标准差和代价函数标准差较小，可使计算更加稳定。

注：仿真时间指算法完成一次完整训练过程所需的总训练时间。

从本节的优化结果分析可知，本文基于事件触发的双层安全强化学习方法通过以下机制可以有效应对系统扰动：

1）强化学习智能体在离线训练中会学习大量扰动场景，所以在线滚动执行时能够持续监测运行状态，一旦事件触发机制判定存在安全越限风险，则立即激活安全恢复策略，对调度指令进行校正。

2）热网、气网的大惯性特性可为电网的短时功率波动提供天然的能量缓冲。当电网出现扰动需快速调整惯量时，其带来的热、气能量波动可以被热、气网络吸收，从而为调度系统提供了更长的决策响应时间，增强了系统的抗扰动能力。

5.3 等效惯量模型参数灵敏度分析

为评估转换增益系数kG（kG,ES、kG,P2H、kG,P2G）对系统频率稳定性的影响，本节进行灵敏度分析。以11:15:02时刻发生扰动为例，分析不同参数下系统的频率动态响应。设定不同kG值（0.5、1.0、2.0、3.0）进行仿真，对应频率响应曲线如图12所示。

从图12中可看出，kG从0.5开始增大后，等效提供的虚拟惯量越大，系统频率恢复能力越强。然而，kG过大会导致设备功率输出需求剧增，可能触发其限幅保护，反而使支撑效果饱和。

对比储能、电转氢、电转气的频率响应，储能的控制效果最高，可精确控制充放电功率，实现精准的频率调节。电转氢虽然在容量方面小于电转气，但电解槽响应在s级，响应速度快于电转气。电转气响应速度相对稍慢，运行约束多，且受催化剂活性、温度等多因素影响。

5.4 不同算法优化结果对比

为验证本文算法的有效性，对比近端策略优化（Proximal Policy Optimization, PPO）[24]、演员-评论家算法（Soft Actor Critic, SAC）[25]、安全强化学习约束策略梯度算法（Constrained Policy Optimization, CPO）[26]与本文考虑事件触发的双层SRL算法，图13为不同强化学习算法下奖励函数的对比结果。由于PPO和SAC没有代价函数，将本文代价函数也归为负的奖励函数。

从图13中可以看出，PPO算法由于其更高的样本效率而具有更快的求解速度，但求解效果差。SAC算法引入最大熵来训练模型，可较好地处理含不确定性的系统优化问题，奖励对比PPO算法有较大提升，但波动性最大。不同于PPO和SAC算法，CPO算法作为安全强化学习算法引入了代价函数，会使奖励值高于前两种算法，进而使得系统安全性更高。而本文考虑事件触发的双层SRL算法，能够有效协调电网与热网气网之间的多时间尺度协调，同时考虑安全约束后，奖励值比较稳定。

图14为两种安全强化学习的代价函数。从图14中可以看出，考虑双层事件触发后，本文方法的代价值明显比CPO方法低，而且波动幅度较小，对于综合能源系统运行具有较好的安全约束性能。这是由于CPO算法过度强调即时安全约束的满足，导致智能体易陷入局部最优的短视行为。而本文的事件触发型双层SRL算法以安全阈值划分系统所处的状态空间，同时以全局最优的奖励函数进行优化。从图13和图14中还可以看出，本文算法的计算时间也优于CPO算法，这是由于CPO通过优化问题的约束项保证每一步的安全性，需要频繁求解带约束的优化问题。而本文事件触发型双层SRL算法仅在触发时集中处理安全约束，实行安全恢复策略，在非触发时实行进化策略，减少了非必要的计算。

5.5 事件触发机制计算效率分析

为验证本文所提事件触发机制在降低计算开销方面的有效性，对不同触发阈值下的计算性能进行量化分析。在方案5的基础上，调整安全代价阈值的缩放系数，即实际触发阈值为mc与缩放系数之积，以改变事件触发的敏感度。本文设置阈值缩放系数为0.85。对比不同阈值下仿真触发情况与计算时间，并与无事件触发机制的基准情况进行对比。不同触发阈值下的计算性能对比结果见表5。事件触发频率及加速比随触发阈值变化曲线如图15所示。

由表5和图15可以看出，触发阈值越高，事件触发频率显著降低。当安全代价阈值的缩放系数从0.80提升至0.95时，触发频率从100%下降至8.30%。单步计算耗时差异显著，这是因为安全恢复策略涉及带约束的优化和李雅普诺夫网络更新，计算复杂度高；而进化策略仅需前向传播和策略梯度更新，计算轻量。

另一方面，虽然本文采用的安全代价阈值触发周期的单次计算耗时略高于基准，但由于触发频率仅为28.10%，大部分周期运行高效的进化策略，使得整体平均周期耗时大幅降低，相较于基准情况获得了较高的加速比。这充分证明，事件触发机制通过避免在绝大多数安全状态下执行复杂的安全恢复策略，所节省的计算量远大于触发时集中计算带来的开销。

6 结论

1）对比不考虑电网惯性安全裕度的运行方法，本文所提基于安全强化学习的多能源惯性协调调度方法能够使电网惯性维持在高惯量水平，同时有效降低频率和频率变化率越限风险。

2）对比不考虑电、热、气多时间尺度的运行方法，使用本文的多能源惯性多时间尺度协调方法的多能源能量协调成本至少降低12.7%。

3）对比不考虑电、热、气多能源惯性安全裕度的运行方法，采用本文考虑事件触发的双层强化学习方法能够大幅降低频率、温度、压力越限成本。

4）对比SAC算法和CPO算法，采用本文基于事件触发的双层SRL算法可使系统越限成本至少降低15.7%，说明基于事件触发的双层SRL算法更适合于对安全稳定性能要求高的系统模型。

附录见https://www.kdocs.cn/l/cfqvIHrvuS53。

[1] 张苏涵, 顾伟, 俞睿智, 等. 综合能源系统建模与仿真: 综述、思考与展望[J]. 电力系统自动化, 2024, 48(17): 1-21. Zhang Suhan, Gu Wei, Yu Ruizhi, et al. Modeling and simulation of integrated energy system: review, reflection and prospects[J]. Automation of Electric Power Systems, 2024, 48(17): 1-21.

[2] 刘硕, 滕云, 陈哲. 融合减碳型多能源微网的城市能源系统环境-经济协调优化模型[J]. 电工技术学报, 2025, 40(23): 7532-7553. Liu Shuo, Teng Yun, Chen Zhe. An environment-economic coordination optimization model for urban energy systems integrating carbon-reducing multi-energy microgrids[J]. Transactions of China Electro-technical Society, 2025, 40(23): 7532-7553.

[3] Wang Siyuan, Wu Wenchuan, Lin Chenhui, et al. A dynamic equivalent energy storage model of natural gas networks for joint optimal dispatch of electricity-gas systems[J]. IEEE Transactions on Sustainable Energy, 2024, 15(1): 621-632.

[4] Yang Nan, Xu Guobin, Fei Zhineng, et al. Two-stage coordinated robust planning of multi-energy ship microgrids considering thermal inertia and ship navigation[J]. IEEE Transactions on Smart Grid, 2025, 16(2): 1100-1111.

[5] Hou Zeyin, Lu Shuai, Xu Yijun, et al. Privacy-preserved aggregate thermal dynamic model of buildings[J]. IEEE Transactions on Smart Grid, 2024, 15(6): 5653-5664.

[6] Li Xu, Deng Jianhua, Liu Jichun. A two-layer and three-stage dynamic demand response game model considering the out of sync response for gases generators[J]. Renewable Energy, 2024, 228: 120681.

[7] Sun Weijia, Wang Qi, Ye Yujian, et al. Unified modelling of gas and thermal inertia for integrated energy system and its application to multitype reserve procurement[J]. Applied Energy, 2022, 305: 117963.

[8] Sun Qirun, Wu Zhi, Gu Wei, et al. Resilience assessment for integrated energy system considering gas-thermal inertia and system interdependency[J]. IEEE Transactions on Smart Grid, 2024, 15(2): 1509-1524.

[9] 陶然, 赵冬梅, 徐辰宇, 等. 考虑电-气-热-交通相互依存的城市能源系统韧性评估与提升方法[J]. 电工技术学报, 2023, 38(22): 6133-6149. Tao Ran, Zhao Dongmei, Xu Chenyu, et al. Resilience assessment and enhancement methods for urban energy system considering electricity-gas-heat-transport interdependency[J]. Transactions of China Electro-technical Society, 2023, 38(22): 6133-6149.

[10] 张帅, 刘文霞, 张艺伟, 等. 计及多重热惯性特征的区域综合能源系统可靠性评估[J]. 电工技术学报, 2023, 38(12): 3289-3305. Zhang Shuai, Liu Wenxia, Zhang Yiwei, et al. Reliability assessment of regional integrated energy system considering with multiple thermal inertia characteristics[J]. Transactions of China Electrotechnical Society, 2023, 38(12): 3289-3305.

[11] 孙鹏, 滕云, 回茜, 等. 考虑异质能流输运特性的多能源系统惯量极限优化[J]. 中国电机工程学报, 2022, 42(10): 3642-3656. Sun Peng, Teng Yun, Hui Qian, et al. Inertia limit optimization of multi-energy system considering the transport characteristics of heterogeneous energy flow[J]. Proceedings of the CSEE, 2022, 42(10): 3642-3656.

[12] 项颂, 苏鹏, 吴坚, 等. 基于多源储能协同的交直流送端系统惯量优化控制模型[J]. 中国电力, 2023, 56(4): 68-76. Xiang Song, Su Peng, Wu Jian, et al. Inertia optimization control model of AC/DC sending-end system based on multi-source energy storage coordination[J]. Electric Power, 2023, 56(4): 68-76.

[13] 张怡静, 李智, 时艳强, 等. 基于储能惯量支撑的受端电网频率优化控制方法[J]. 电工技术学报, 2024, 39(11): 3556-3568. Zhang Yijing, Li Zhi, Shi Yanqiang, et al. Optimal frequency control method of receiving power grid based on energy storage inertia support[J]. Transactions of China Electrotechnical Society, 2024, 39(11): 3556-3568.

[14] 缪蔡然, 朱姚培, 王琦, 等. 考虑气热惯性的综合能源系统参与辅助服务策略[J]. 电力建设, 2023, 44(11): 128-137. Miao Cairan, Zhu Yaopei, Wang Qi, et al. Ancillary service strategies for integrated energy systems considering gas-thermal inertia[J]. Electric Power Construction, 2023, 44(11): 128-137.

[15] 王欣, 崔承刚, 王想想, 等. 基于安全强化学习的热电联产机组经济调度策略研究[J]. 系统仿真学报, 2025, 37(4): 968-981. Wang Xin, Cui Chenggang, Wang Xiangxiang, et al. Research on economic dispatching strategy of CHP units based on SRL[J]. Journal of System Simulation, 2025, 37(4): 968-981.

[16] 焦昊, 殷岩岩, 吴晨, 等. 基于安全强化学习的主动配电网有功-无功协调优化调度[J]. 中国电力, 2024, 57(3): 43-50. Jiao Hao, Yin Yanyan, Wu Chen, et al. Coordinated optimization of active and reactive power of active distribution network based on safety reinforcement learning[J]. Electric Power, 2024, 57(3): 43-50.

[17] Hao Guokai, Li Yuanzheng, Li Yang, et al. Lyapunov-based safe reinforcement learning for microgrid energymanagement[J]. IEEE Transactions on Neural Networks and Learning Systems, 2025, 36(6): 9985-9999.

[18] Sun Peng, Teng Yun, Chen Zhe. Robust coordinated optimization for multi-energy systems based on multiple thermal inertia numerical simulation and uncertainty analysis[J]. Applied Energy, 2021, 296: 116982.

[19] Hu Qinran, Han Rushuai, Quan Xiangjun, et al. Grid-forming inverter enabled virtual power plants with inertia support capability[J]. IEEE Transactions on Smart Grid, 2022, 13(5): 4134-4143.

[20] 张祥宇, 朱永健, 付媛. 基于系统惯量需求的风储协同快速频率响应技术[J]. 中国电机工程学报, 2023, 43(14): 5415-5428. Zhang Xiangyu, Zhu Yongjian, Fu Yuan. Wind-storage cooperative fast frequency response technology based on system inertia demand[J]. Proceedings of the CSEE, 2023, 43(14): 5415-5428.

[21] 袁铁江, 张江飞, 滕越. 基于虚拟同步机的新能源制氢系统协调控制策略[J]. 中国电机工程学报, 2025, 45(1): 163-174. Yuan Tiejiang, Zhang Jiangfei, Teng Yue. Coordinated control strategy of the renewable energy hydrogen production system based on VSG[J]. Proceedings of the CSEE, 2025, 45(1): 163-174.

[22] 张苏涵, 顾伟, 陆帅, 等. 综合能源系统分析——从数值到解析(三)：混合时间尺度经济调度[J]. 中国电机工程学报, 2026, 46(1): 173-185. Zhang Suhan, Gu Wei, Lu Shuai, et al. Integrated energy system analysis—from numerical to analytical (Ⅲ): hybrid timescale economic dispatch[J]. Proceedings of the CSEE, 2026, 46(1): 173-185

[23] Hu Jingwei, Yan Zheng, Xu Xiaoyuan, et al. Inertia market: mechanism design and its impact on generation mix[J]. Journal of Modern Power Systems and Clean Energy, 2023, 11(3): 744-756.

[24] 张薇, 王浚宇, 杨茂, 等. 基于分布式双层强化学习的区域综合能源系统多时间尺度优化调度[J]. 电工技术学报, 2025, 40(11): 3529-3544. Zhang Wei, Wang Junyu, Yang Mao, et al. The multi-time-scale optimal scheduling for regional integrated energy system based on the distributed bi-layer reinforcement learning[J]. Transactions of China Electrotechnical Society, 2025, 40(11): 3529-3544.

[25] 陈明昊, 朱月瑶, 孙毅, 等. 计及高渗透率光伏消纳与深度强化学习的综合能源系统预测调控[J]. 电工技术学报, 2024, 39(19): 6054-6071, 6103. Chen Minghao, Zhu Yueyao, Sun Yi, et al. The predictive-control optimization method for park integrated energy system considering the high penetration of photovoltaics and deep reinforcement learning[J]. Transactions of China Electrotechnical Society, 2024, 39(19): 6054-6071, 6103.

[26] Ye Yujian, Wang Hongru, Chen Peiling, et al. Safe deep reinforcement learning for microgrid energy management in distribution networks with leveraged spatial-temporal perception[J]. IEEE Transactions on Smart Grid, 2023, 14(5): 3759-3775.

Optimal Scheduling of Integrated Energy System Based on Safety Reinforcement Learning and Multi-Energy Inertia Coordination

（1. Key Laboratory of Modern Power System Simulation and Control & Renewable Energy Technology of Ministry of Education Northeast Electric Power University Jilin 132012 China 2. School of Electrical Engineering Shenyang University of Technology Shenyang 110870 China 3. Department of Energy Technology Aalborg University Aalborg DK-9220 Denmark 4. Kezhou Power Supply Company of Xinjiang Electric Power Co. Kizilsu Kirgiz Autonomous 845350 China）

Abstract The integrated energy system (IES), which synergistically couples electricity, heat, and natural gas, is pivotal for achieving high-quality energy development and carbon neutrality goals. However, the divergent inertial characteristics and multi-time-scale dynamics of these energy subsystems pose significant challenges to secure and economically optimal operation. The declining inertia in power grids, a consequence of high penetration of power-electronic-interfaced renewables, undermines system frequency stability and anti-disturbance capability. Concurrently, the disparate response times-with electricity operating on a second/minute scale and heat/gas on a minute/hour scale-complicate coordinated scheduling. Existing studies often have limitations: some overlook the full potential of multi-energy coupling equipment in providing grid inertia support, others fail to adequately model the impact of device participation on source-network energy balance, and many cannot effectively resolve the security-economic trade-off in high-dimensional decision-making across multiple time scales. To holistically address these intertwined challenges, this paper proposes a novel multi-time-scale coordinated optimization scheduling method for IES based on event-triggered safe reinforcement learning (SRL), designed to coordinate multi-energy inertia for enhanced security and economy.

The proposed methodology is structured around three key innovations. First, a comprehensive “equipment-inertia-energy” model is established to characterize how multi-energy coupling devices participate in grid inertia support. Unlike existing models that simplify devices as fixed inertia sources or focus solely on energy balance, this model meticulously analyzes the participation degree of devices like CHP units, power-to-gas/hydrogen, fuel cells, and thermal storage, and maps their operational states to equivalent grid inertia constants, considering the energy buffering provided by thermal and gas networks. Second, a multi-time-scale energy coordination strategy is developed that leverages the inherent tolerance of thermal and gas systems to short-term power fluctuations. This strategy explicitly treats the power grid's second/minute-level inertia regulation demands as an energy buffer that can be absorbed and managed within the longer minute/hour-level dispatch cycles of the thermal and gas networks, eliminating the need for highly precise short-term predictions. Third, a bi-level SRL optimization framework with an event-triggering mechanism is constructed to solve the model efficiently. The upper-level SRL optimizes short-term grid economic operation and inertia security, while the lower-level SRL minimizes long-term thermal and gas subsystem operational costs. Crucially, the event-triggering mechanism, based on a Lyapunov safety function, activates a computationally intensive safety recovery strategy only when the system state approaches or violates security boundaries; otherwise, a more efficient evolutionary policy is executed, thus balancing computational load and safety assurance.

Simulation studies were conducted on a modified IES testbed comprising an IEEE 30-bus power system, a 20-node gas system, and a 14-node thermal system. Five different schemes were compared to validate the proposed method’ s effectiveness. The results demonstrate that the proposed method (Scheme 5) effectively maintains grid inertia within a high-inertia security zone across various time periods, significantly reducing the probability and associated cost of frequency and rate-of-change-of-frequency (RoCoF) limit violations. Specifically, the frequency/RoCoF violation cost was reduced to nearly zero, and the thermal/gas network violation cost was cut by over 80% compared to the sub-optimal scheme. Furthermore, the multi-time-scale coordination reduced total multi-energy operational costs, with the comprehensive cost in Scheme 5 being at least 12.7% lower than schemes without full coordination. A comparative analysis with other reinforcement learning algorithms, including PPO, SAC, and CPO, showed that the proposed event-triggered bi-level SRL achieved higher and more stable reward values and a significantly lower cost function, indicating superior security constraint handling. Sensitivity analysis on the conversion gain coefficient confirmed its critical role in frequency stability, while computational efficiency tests proved that the event-triggering mechanism reduced the average cycle computation time by a factor of 3.5, making it highly suitable for the online dispatch of complex IES.

keywords：Integrated energy system, multi-energy inertia, multiple time scales, reinforcement learning, optimal scheduling

国家重点研发计划（2017YFB0902100, 2022YFB2403000）、吉林省自然科学基金（YDZJ202601ZYTS201）和东北电力大学博士科研启动基金（BSJXM-2024205）资助项目。

孙鹏男，1994年生，博士，讲师，硕士生导师，研究方向为综合能源系统优化调度与运行控制，多能源惯性评估与优化。E-mail：sunpeng@neepu.edu.cn

杨茂男，1982年生，教授，博导，研究方向为新能源发电功率预测，微网优化调度，综合能源系统优化。E-mail：yangmao820@163.com（通信作者）