基于积分强化学习的构网型VSC综合频率控制

摘要柔性直流系统电压源换流器（VSC）具有快速功率调节能力，可为受端电网提供频率支撑。该文在构网型虚拟同步机控制框架的基础上，针对系统模型未知的场景，提出了一种基于积分强化学习和主动负荷扰动补偿的VSC综合频率控制方法。首先，推导虚拟同步机控制的VSC与目标电网的等效模型，并对系统的振荡模态进行分析，为了抑制反相频率振荡，引入基于二次型性能指标的最优频率控制方法；其次，设计了基于脉冲摄动激励的策略迭代型积分强化学习算法，用于实现无模型最优频率控制问题的在线高精度求解；然后，为了提高VSC对负荷扰动的主动响应能力，实现快速二次调频，设计了降阶的负荷扰动观测器和相应的补偿控制；最后，搭建了两个仿真测试系统，对综合频率控制方法的性能进行验证。仿真结果表明，所提方法能有效抑制负荷扰动引起的频率与功率振荡，提高系统的动、稳态性能。

关键词：柔性直流输电构网型控制虚拟同步机积分强化学习负荷扰动补偿

0 引言

随着全球能源危机的加剧，调整能源结构并扩大可再生能源发电比例已逐渐被提上日程，风、光等新能源大规模接入电网已成为新型电力系统的重要特征[1]。然而，新能源具有随机性、强间歇性和波动性等特点[2]，增加新能源发电占比会降低电网惯性，甚至威胁电网的频率稳定。基于电压源换流器的柔性直流（Voltage Source Converter based High Voltage Direct, VSC-HVDC）输电技术以VSC作为接口，具有功率调控灵活、动态响应快、可实现有功功率和无功功率解耦控制等特点[3]，在提高电网频率稳定性方面具有独特优势。

VSC-HVDC系统的出力由电力电子装置调控，其拥有传统同步发电机组无法比拟的快速响应能力，能够向低惯性电网提供快速的功率和频率支撑[4]。文献[5-7]探究了VSC-HVDC系统在频率控制上的应用。当前主流的频率调控方式为下垂控制[8-10]，其核心下垂控制方程能有效维持系统的有功功率和频率稳定。然而，下垂控制本质属于被动调节，只能在系统出现频率偏差后再被动地调整有功出力，调频效果存在滞后且无法为系统提供惯性，难以有效抑制扰动引起的频率振荡。此外，传统VSC-HVDC系统并网通常采用基于锁相环（Phase Locked Loop, PLL）的跟网型（Grid-Following, GFL）控制策略，其表现为电流源特性，在电网强度降低的工况下容易出现干扰失稳的问题[11]。

为了充分发挥VSC-HVDC系统的动态响应能力，提高系统稳定性，学者们借鉴了同步发电机的运行原理，提出了具有电压源外特性的构网型（Grid-Forming, GFM）控制技术[2]。最常见的构网型控制技术是虚拟同步机（Virtual Synchronous Generator, VSG）[12-13]。VSG控制下的VSC具备与同步发电机类似的阻尼和转动惯量，可为弱电网或无源电网提供频率和电压支撑，是新型电力系统的研究热点。文献[14]从并网性能、宽频谐振稳定和暂态稳定三个方面分析了构网型控制技术在VSC-HVDC系统应用的关键技术难点。文献[15]对VSG控制的模块化多电平换流器（Modular Multilevel Converter, MMC）进行研究，利用谐波线性化的方法建立其序阻抗模型，并分析VSG参数对系统阻抗特性的影响。在频率控制方面，文献[16]提出了基于VSG的构网型换流器控制策略，利用柔直系统改善受端电网频率的暂、稳态性能；文献[17]针对构网型VSC参与受端电网调频进行研究，提出了一种基于功率扰动观测器的快速频率支撑方法；文献[18]对具有直流电压调节能力的VSG控制器进行研究，提出了一种两自由度改进方法，有效地提高了VSC-HVDC交流侧频率稳定性。

可以发现，构网型控制在VSC-HVDC系统上的研究主要集中在稳定分析与控制上，这些研究大多以系统模型为基础设计相应的稳定策略。然而，对于实际的电力系统，策略的制定者往往难以获取准确的先验模型信息。在这种情况下，基于模型机理设计稳定策略的方法难以适用，因此，为构网型VSC设计无模型的稳定控制方法至关重要。

当前有关构网型VSC参与频率控制主要存在两方面亟待解决的问题：一次调频方面，依赖频率偏差反馈的下垂控制方法只能实现频率稳定和稳态有功功率分配，并未考虑动态过程的振荡抑制问题；二次调频方面，主流的基于频率偏差积分的方法动态性能较差，难以发挥VSC的快速响应能力，系统遭遇激进负荷扰动后的频率恢复能力有限。受此启发，本文考虑系统模型未知的情况，在构网型VSG控制框架的基础上，针对VSC-HVDC系统提出了一种基于积分强化学习与负荷扰动补偿相结合的综合频率控制方法，创新点主要包括：

1）分析了构网型VSC与受端电网联动的振荡模态，提出了基于二次型性能指标的最优频率控制方法。该方法无需调整VSG基础参数，即可有效改善系统阻尼水平，抑制两端反相频率振荡。

2）以积分强化学习算法为原型，提出了基于脉冲摄动激励的策略迭代算法用于求解无模型最优频率控制问题。该算法以数据驱动的方式执行，无需先验模型信息，能自主迭代收敛至最优控制策略。

3）设计了降阶的负荷扰动观测器和主动补偿控制以实现对交流电网的主动二次调频功能。该方法能在线估计负荷侧扰动并在控制端引入相应的补偿，提高了系统对负荷扰动的主动响应能力。

1 柔直系统构网型VSC与最优频率控制

1.1　系统等效模型

本文的研究对象为一个VSC-HVDC点对点输电系统，如图1所示。其中，电网1侧换流站VSC1采用PI双环解耦直接电流控制，外环有功类采用定直流电压控制，无功类则采用定无功功率控制；而电网2侧换流站VSC2则采用构网型VSG控制，通过调节交流侧电压幅值和相位，实现对无功功率和有功功率的调控，其基本原理如图2所示，有功功率参考 width=16.3,height=15.65

的符号决定了VSC-HVDC有功功率的流向。本文的目标是为VSC2侧的VSG控制器设计合适的有功功率参考调整指令 width=21.9,height=15.65

，以实现对电网2的频率支撑。VSC2和电网2也被称为目标换流站和目标电网。参与频率支撑的有功功率储备来源于HVDC系统，具体而言，通常是指电网1的富余发电能力，或者直流系统本身通过调度指令预留的备用容量。而目标换流站扮演的角色是“通道”和“执行器”。

根据文献[17]，将电网1和VSC1等效为可控直流电压源，电网2则等效为等值同步发电机，如图3所示。本节将对VSC-HVDC系统电路模型、构网型控制器模型和目标电网等效模型进行分析。

关于VSC-HVDC系统电路模型，本文采用了MMC的平均值模型（Average-Value Model, AVM），如图4所示。该模型能够在保证机电暂态仿真精度的基础上，有效地降低计算复杂度[19]，其标幺化模型为

式中，

为等效直流电容；

为直流母线电压幅值； width=16.5,height=15.75

为直流侧电流幅值；Pf为目标换流站输出有功功率的标幺值； width=18,height=15.75

和

分别为等效电阻和等效电感； width=20.25,height=15.75

为等效可控直流电网电压； width=12,height=12

和

分别为换流站输出电压幅值和并网点电压幅值； width=9.75,height=12.75

和

分别为换流站输出电压相位和并网点电压相位； width=12.75,height=12

为等效电抗，由变压器、交流线路电抗和换流站滤波电抗组成； width=13.5,height=12

为调制比幅值，由构网型控制器的无功功率控制决定。

由式（1）可知，直流侧通过直流母线电压 width=16.5,height=15.75

影响目标换流站输出有功功率，有

在VSC1的PI双环控制器调控下，等效可控直流电网电压 width=20.25,height=15.75

将

稳定在期望参考电压

。

关于目标换流站构网型VSG控制器，本文聚焦有功功率平衡和频率稳定控制，忽略系统的无功功率和电压波动。构网型有功功率控制模型为

式中，

和

分别为虚拟频率和系统额定频率的标幺值； width=15.75,height=15.75

为虚拟惯性常数；

为虚拟阻尼系数；

为额定角频率有名值。式（3）模拟了同步发电机的摇摆方程，可为系统提供类似于同步发电机的惯性支撑。

目标电网等效模型由调速机和等值同步发电机构成，如图5所示，其动态方程表达式为

进一步地，综合式（2）～式（4），并考虑直流电压控制误差 width=16.5,height=16.5

对系统的影响，得到构网型VSC参与目标电网频率控制的线性化小信号模型为

式中，

为系统状态向量，

；u为系统的控制输入， width=36.75,height=15.75

；

为负荷功率偏差，作为系统的外部扰动； width=37.5,height=12.75

，

为标称系统矩阵，

为直流电压控制误差引起的参数摄动矩阵。 width=12.75,height=12.75

、

和

分别为

其中，下标“0”表示变量的初始平衡点。

由式（5）及其系统矩阵可以看出，除平衡点功角δ0-θ0外，小信号模型所有参数均为固定常数，不受负荷扰动影响。在负荷扰动下，δ0-θ0虽会有所变动，但其真值仍然相对较小，cos(δ0-θ0)高度接近1。文献[18]研究将cos(δ0-θ0)近似为1，有功功率-功角斜率被视为常值。可见，小信号模型式（5）对负荷扰动不敏感，其具有较广的适用范围。此外，在系统无功功率平衡的情况下，换流站直流侧的电气动态对电网频率的影响体现在参数摄动矩阵DA上。

模型式（5）所定义的五维状态空间刻画了主导电网频率动态的关键状态及其交互机理。因此，本文设计的最优频率控制与积分强化学习算法，将以这五维状态作为状态反馈和系统数据采样依据。

1.2　系统振荡模态分析

VSG的动态特性主要由虚拟惯性常数 width=15.75,height=16.5

和虚拟阻尼系数

决定。本节通过系统关于 width=15.75,height=16.5

和

变化的特征根轨迹对其振荡模态进行分析。假设直流电压在VSC1的调节下稳定在额定值。引入表1所示的测试系统参数，在此基础上根据模型式（5）绘制系统关于 width=15.75,height=15.75

=1～31 s（

固定为10(pu)）和 width=13.5,height=15.75

= 5(pu)～35(pu)（ width=15.75,height=15.75

固定为4 s）的特征根轨迹，如图6所示。

由图6可知，系统主要有2组振荡模态。当 width=15.75,height=15.75

增大时，

和

从振荡模态转为非振荡模态， width=13.5,height=15.75

、

和

快速趋向于复平面纵轴， width=13.5,height=15.75

和

的振荡频率降低，阻尼比显著减小。若 width=15.75,height=15.75

继续增大，

和

趋于无阻尼振荡。当

增大时，所有特征根往左移动，两对共轭特征根的阻尼比明显增大，系统稳定性提高。

增大

能提高VSG的惯性水平，但系统的阻尼比也会减小，遭遇扰动时的振荡会加剧。为了直观展示 width=15.75,height=15.75

的影响，在表1测试系统的基础上，分别将 width=15.75,height=15.75

设置为2 s和8 s，并测试了系统在遭遇0.1(pu)阶跃负荷扰动时的频率响应，结果如图7所示。图7中， width=19.5,height=15.75

和

分别为目标VSC端和目标电网端的频率偏差， width=19.5,height=15.75

为两端连接中点的频率偏差。提高 width=15.75,height=15.75

虽然能降低输电线路总体的频率变化率（Rate of Change of Frequency, RoCoF），但也会引起线路两端频率反相振荡加剧，恶化目标电网的频率稳定性。虽然增大 width=13.5,height=15.75

可以改善系统阻尼，抑制振荡，但考虑到换流站与目标电网在一次调频过程中的有功功率分配由 width=13.5,height=15.75

决定，其调整的自由度有限。综上所述，仅调整VSG的参数并不足以有效改善目标电网的频率振荡。

1.3 最优频率控制

为了提高系统的频率稳定性，本文在小信号模型式（5）的基础上，引进二次型性能指标，即

式中，

为初始时刻；Q、R分别为半正定状态权重矩阵和控制权重系数，决定了状态偏差和控制能耗在性能指标中的权重， width=36.75,height=16.5

，

。

的对角元素大小代表对状态偏差的收敛性能要求，其值越大则要求状态偏差的动态收敛性越好。类似地， width=12,height=12

代表对控制能耗的重视度，其值越大则要求控制能耗越低。

考虑到系统频率的稳定性是主要优化目标，本文将 width=12,height=13.5

中

和

对应的权重系数设置为较大的数值。式（6）为优化频率的稳定性提供了方向，最优频率控制问题的核心是设计最优状态反馈使式（6）最小化，有

式中，

为待求的最优状态反馈增益矩阵。

对于可控的模型式（5）和性能指标式（6），以上最优频率控制问题存在全局唯一解。在系统模型完全可知的情况下，最优频率控制问题可以归结为对代数Riccati方程式（8）的求解。

式中，

为待求的最优代价函数参数矩阵。

图8展示了基于Q=diag(3500, 3500, 0.5, 0.5, 15)， width=24,height=12

引入最优状态反馈后的系统特征根分布情况。可以看出，引入最优状态反馈后特征根整体往左平移，系统的主导共轭特征根阻尼比大于0.7，表现出较好的反相振荡抑制性。

本文提出的最优频率控制方法，其控制输出以有功功率参考值修正量 width=21.75,height=15.75

的形式注入VSG功率控制环中。该注入点位于VSG核心控制模块（包含虚拟转子运动方程，体现惯性特性和固有阻尼特性）的上游。因此，最优状态反馈产生的修正信号 width=21.75,height=15.75

并未直接修改VSG内部的动态特性，其核心的惯性支撑能力和阻尼作用在系统受到扰动后的初始响应阶段依然得到完整地体现。可以说，最优频率控制方法尊重并利用了VSG的固有特性，同时通过一个外部最优状态反馈控制器，针对VSG响应过程中出现的欠阻尼振荡问题进行了精准的优化。

利用Riccati方程求解最优状态反馈依赖系统矩阵A。在实际电力系统中，蕴含系统动态信息的矩阵A往往难以准确获取[20]，尤其是多节点互联的目标电网。此外，不确定的参数摄动矩阵 width=17.25,height=12

也给求解带来额外的复杂度。在这种情况下，代数Riccati方程法将不再适用。因此，有必要开发一种新的方法，用于求解未知系统模型场景下的最优频率控制问题。

2 基于积分强化学习的最优频率控制

本节引进一种基于数据驱动的积分强化学习方法，用于求解构网型VSC最优频率控制问题。整个算法流程被划分为在线训练阶段和实际测试阶段：在线训练阶段，通过数据驱动对状态反馈增益矩阵进行迭代优化；当状态反馈增益矩阵收敛至最优后，系统进入实际测试阶段。

2.1 积分强化学习与策略迭代算法

积分强化学习是一种无模型数据驱动方法[21]，它结合了强化学习与现代控制理论，为求解未知系统的最优控制问题提供了新的思路。

根据性能指标式（6），定义代价函数为

选择任意可容许的（admissible）状态反馈增益矩阵 width=12.75,height=12

和对应的策略

，使系统式（5）在无负荷扰动（ width=31.5,height=15.75

）的情况下是闭环渐近稳定的。 width=38.25,height=15.75

表示在当前控制策略

下对应的代价函数，即

式中，

为矩阵方程

的正定解[22]。该方程是Bellman方程的参数化形式。

实际上，代价函数

可以视为系统在反馈增益矩阵 width=12.75,height=12

下的Lyapunov函数。式（9）可以重写为

将式（10）代入式（11），得到积分Bellman方程为

积分强化学习的核心就是以式（12）为基础的策略迭代算法，主要分为策略评估和策略改进两步。算法开始于一个初始可容许的反馈增益矩阵 width=13.5,height=15.75

和策略

，初始化i=1，由此进入以下迭代。

（1）策略评估：求解第i轮反馈增益矩阵 width=13.5,height=15.75

对应的积分Bellman方程。

（2）策略改进：根据驻点条件[20]，执行第i次策略改进，得到改进的反馈增益矩阵 width=19.5,height=16.5

和改进策略

。

i=i+1，返回策略评估进行下一轮迭代。

以下定理证明了上述策略迭代算法的收敛性。

定理1 在初始反馈增益 width=13.5,height=15.75

是可容许的前提下，策略迭代式（13）和式（14）将一致收敛于全局最优解， width=51,height=20.25

，

，

和

满足代数Riccati方程式（8）。

定理1的证明详见附录。

式（13）和式（14）给出的积分强化学习策略迭代将系统矩阵 width=12,height=12

的信息嵌入数据Δx(t)和 width=41.25,height=14.25

中。因此，策略评估和策略改进的计算均不需要 width=12,height=12

，而仅在策略改进中用到了控制输入矩阵 width=13.5,height=15.75

。由于

可以由虚拟惯性常数

计算得到，而

是预先设置的，因此矩阵 width=13.5,height=16.5

是预知的。由此可知，上述策略迭代算法可以在模型未知的系统式（5）上实现。

注1：在稳定性方面，最优状态反馈以代价函数V为Lyapunov函数，式（9）可在理论上保证系统在无干扰条件下的全局渐近稳定性，以及在有界干扰条件下的全局一致有界稳定性。从图8可以看出，引入最优状态反馈后系统的闭环特征根整体向左半平面偏移，这一特性源于代价函数的设计包含了对状态偏差收敛性能的要求。因此，优化过程不仅追求性能最优，同时主动提升稳定裕度，确保解始终位于稳定域内部。此外，所提出的最优频率控制方法无需系统模型信息，以数据驱动的方式迭代求解，其对模型偏移（如内部参数摄动）具有自适应性和强鲁棒性。与传统基于名义模型的方法相比，本方法在真实场景下的实际稳定裕度更高。

2.2 基于数据驱动和脉冲摄动激励法的在线实现

接下来讨论策略迭代算法的实现细节。该算法的核心是在线数据驱动，即通过在线更新策略和采样数据迭代求解代价函数的参数矩阵 width=12,height=16.5

。为了方便计算，将

写为

式中，

为Kronecker积二次多项式基向量，其元素为 width=84.75,height=16.5

；

，

为向量值矩阵函数，其作用是将对称矩阵的上三角部分的非对称元素乘2，然后将上三角元素逐行堆叠成新的列向量，并返回该列向量。

将式（15）代入式（13），可以得到

式中，

为未知参数向量；

可以视为回归向量。将式（16）右侧定义为目标函数，即

将式（16）的左侧构建成一个全连接层神经网络，激活函数为 width=71.25,height=15.75

，神经网络权值参数为 width=12,height=15

。该神经网络被称为Critic网络，其残差定义为

Critic网络权值参数向量 width=12,height=15

可以通过求残差的最小二乘解获得，而参数矩阵 width=12,height=15.75

可以通过还原

获得。在每个迭代周期内，对系统响应进行N＞15（ width=12,height=15.75

的独立元素个数）次步长为T的采样。然后，将采样数据用于求解式（17）的最小二乘解，即

式中，

和

为采样数据矩阵，

，

积分强化学习算法的实现围绕式（18）开展，采样状态维度为5，单次迭代数据样本数要求N＞15，总体采样负担较低。关于积分时间窗T的设置，可在采样精度允许前提下设置一个相对较短但又能覆盖系统关键响应时间尺度的固定T。后续测试证明，将T设置为5 ms即可高效且充分地捕获系统动态信息。此外，在每个迭代周期内，Critic网络参数的求解是通过最小二乘法一次性完成的，整体的计算效率较高。

为了实现最小二乘问题的求解，必须保证采样数据的持续激励（Persistence of Excitation, PE）条件[23]。当前主流的方法是在控制端引进持续的噪声，然后沿着系统轨迹进行实时的数据采集。这种方法虽然实现较简单，但是会造成一定的参数偏移。针对该问题，本文提出了脉冲摄动激励法，通过在在线训练阶段定期地引进单脉冲摄动来保证持续激励。系统达到稳态后，在控制端注入单脉冲摄动，诱使系统状态偏离平衡点，摄动作用后开始采集首次策略评估所需的系统轨迹数据；后续每次更新 width=13.5,height=16.5

和

后，均在控制端注入单脉冲摄动，作用后再开始采集系统轨迹数据，以此类推，直至 width=13.5,height=16.5

和

收敛。基于脉冲摄动激励的策略迭代算法流程如图9所示。图9中， width=12.75,height=15.75

为参数收敛阈值，

表示向量值矩阵函数的逆，用于将Critic网络参数向量 width=13.5,height=16.5

还原成参数矩阵

。

注2：与持续噪声激励不同，脉冲摄动激励只作用于数据采集前，这种方式可有效避免激励对采集数据的直接干扰，从而提高 width=12,height=15

的求解精度。需要注意的是，算法执行时应保证激励作用后的系统动态响应时间大于数据采集的时长，从而保证采集到的数据点均是激励的。

注3：策略迭代算法执行前，应保证系统已达稳态，这是因为最优反馈控制是基于稳态平衡点处线性化的小信号模型求解得到的，若启动算法时系统未达稳态会产生模型偏差。此外，脉冲激励的强度受系统安全运行条件约束，激励引起的包括电网频率在内的状态偏差应在安全范围之内。这样既可保证电网的安全运行，也能使采集的数据有效地贴合平衡点处的线性化模型。

3 负荷扰动补偿控制

在存在负荷扰动的工况下，状态反馈只能保证频率的一致有界稳定，即只能实现一次调频。为了充分发挥VSC对负荷侧扰动的主动响应能力，实现快速的二次调频，本文引进了基于降阶负荷扰动观测器的补偿控制，与在线训练阶段得到的最优状态反馈控制一同构成综合频率控制器（以下简称综合控制器）。

3.1 降阶的负荷扰动观测器

考虑系统式（5）中的电网频率的标称动态方程为

将负荷扰动

定义为扩张状态，针对式（19）设计的二阶负荷扰动观测器为

式中，

和

分别为扰动观测器对

和

的观测；

和

为待设置的增益参数。

定义观测误差为

。考虑负荷扰动相对于观测器为慢变量，在对观测误差进行分析时忽略负荷扰动的导数，根据式（19）和式（20）可以得到观测误差动态方程为

将式（21）的极点配置在 width=16.5,height=9.75

，则扰动观测器的增益参数可设置为

选择

即可保证观测误差e1、e2渐近收敛。 width=12,height=9.75

是观测器增益，其值越大，观测器的动态性能越好，但噪声敏感度也越高。考虑实际系统中存在量测噪声，带宽设置应在动态性能和噪声敏感度之间作出折中。

注4：与文献[17]的八阶功率扰动观测器相比，本文提出的二阶观测器结构更为简单，观测器增益的最高次幂也更低，有利于降低噪声敏感度。另外，式（20）仅以局部名义模型为基础，并不要求完整的系统模型。由模型偏差引起的观测误差将由后续额外设计的小信号积分环节完全补偿。

3.2 扰动补偿控制与综合频率控制

将被引至控制端用于补偿负荷扰动。为了完全补偿输电线路网损和模型偏差引起的观测误差，本文在控制端引进了小信号积分环节，由此得到扰动补偿控制器为

式中，

为积分系数。

将策略迭代收敛的最优状态反馈控制视作基线控制，与补偿控制器式（23）组合，得到综合控制器为

式中，

为策略迭代收敛的状态反馈矩阵； width=13.5,height=15.75

为目标VSC的额定容量。

式（24）考虑了VSC的额定容量限制并保留一定的无功储备，以85%额定容量为重载线，对功率调整指令 width=21.75,height=15.75

进行了限制，以避免VSC过载。基于分离原理[24]，式（24）综合了基线控制和补偿控制，在抑制频率振荡的同时又能实现快速主动的二次调频。

注5：在模型偏差较小的工况下，负荷观测值与真实值的误差较小，式（23）中的负荷观测反馈项补偿了大部分负荷扰动的影响，而积分项仅需负责补偿模型偏差和线路网损，因此，可设置较小的系数 width=12,height=15.75

。

注6：当目标电网为多机互联系统时，其等值同步发电机模型往往难以获取。这种情况下，可以容量最大的电源所连母线为基础，其余部分等价为符号自由的负荷，再按照式（20）设计相应的负荷扰动观测器。

4 仿真测试

本文利用Matlab/Simulink的Simscape库分别搭建了等效系统测试模型和IEEE标准9节点测试模型，用于验证综合控制器的性能。其中主网侧VSC1采用图1所示的定直流电压控制和定无功功率控制以保证直流电压稳定，VSC1和VSC2均采用具有201电平的MMC，触发频率为10 kHz。为了体现所提方法的性能优势，本文引进了以下三种方法进行对比：

1）具有Nichols-PI功率调节器的VSG方案（VSG+Nichols-PI）， width=105.75,height=16.5

，其中参数

和

依据Nichols曲线理论进行调整[25]。

2）具有V2-P-w下垂功率调节器的VSG方案（VSG+V2-P-w droop）[26]，模拟调速机的作用， width=30.75,height=15.75

，其中下垂系数

和

分别设置为1和6。

3）传统构网型VSG方案， width=37.5,height=15.75

。

4.1 等效系统测试模型

本节中，目标电网由六阶同步发电机模型构成[27]。 width=15.75,height=16.5

、

分别设置为4 s和10(pu)，以保证良好的阻尼特性，其他参数与表1一致，参考自文献[17, 28]。

由于频率与功角稳定是频率控制的重点，综合考虑选择 width=140.25,height=14.25

，R=1。积分强化学习算法和补偿控制器的参数见表2。

4.1.1 在线训练阶段

系统首先进入在线训练阶段，基线控制器和状态反馈增益矩阵在策略迭代算法的驱动下进行在线优化。图10展示了脉冲摄动激励下的Critic网络参数，可以看出，参数经过7次迭代后平稳收敛。作为性能对比，图11展示了脉冲摄动激励和传统噪声激励下的参数误差范数 width=37.5,height=19.5

。噪声激励下的迭代算法最终误差范数为1.64，而脉冲摄动激励下的误差范数收敛至0.24以内（这部分误差主要由测量精度限制和建模误差引起），即收敛策略与最优策略契合度更高。

4.1.2 实际测试阶段

策略迭代算法收敛后，系统进入实际测试阶段，负荷在t=1 s时阶跃增加50 MW。负荷扰动观测器的观测值如图12所示，四种方案的系统频率偏差响应如图13所示。此外，图14和图15分别展示了电网端频率变化率绝对值|RoCoF|和VSC输出有功功率变化。

结果表明，观测器能无超调地快速跟踪阶跃负荷扰动。在遭遇阶跃负荷后，只有综合控制器和Nichols-PI能将频率恢复至额定值，传统VSG以及引进额外V2-P-w下垂调节器均只能实现一次调频。综合控制器将频率降限制在0.001(pu)以内，频率恢复时间接近1 s，展现出较好的动态响应特性。通过对比四种方案的频率偏差响应可以看出，综合频率控制方法的频率反相振荡最小，阻尼特性最好。这一优势也直接反映在有功功率响应上。图15显示，综合频率控制方法能快速地将 width=16.5,height=15.75

增加至50 MW以补偿负荷侧的有功缺额，且功率振荡远小于另外三种方案。这得益于在最优控制中将功角偏差 width=37.5,height=12.75

纳入性能指标式（6），改善了系统的功角稳定性。遭遇扰动时的RoCoF是评价频率稳定性的重要指标。从图14可以看出，相较于另外三种方案，综合频率控制方法能快速抑制电网的RoCoF，有效降低负荷扰动对电网频率的冲击。

本文出的综合控制器能在不调整参数 width=15.75,height=15.75

和

的前提下有效抑制系统振荡，为改善构网型VSC的动、稳态性能提供了一种新的思路。

4.2 标准9节点测试系统

为了验证所提方法在多机互联系统中的有效性，在IEEE标准9节点系统中，将2号机替换为配置了构网型VSG的VSC-HVDC系统，系统拓扑如图16所示。VSC额定容量为500 MV·A，初始输出有功功率163 MW。发电机G1和G3的参数见表3（基准容量500 MV·A，基准电压230 kV，基准频率60 Hz）。考虑G1和G3阻尼为0，为抑制系统频率振荡，本节提高了 width=19.5,height=15.75

和

在性能指标中的权重，将 width=12,height=13.5

调整为

。其他参数与4.1节一致。

4.2.1 在线训练阶段

与4.1节类似，系统先进入在线训练，积分强化学习算法的参数和表2一致。图17展示了Critic参数迭代情况，参数经过8次迭代后平稳收敛。可见，本文提出的积分强化学习算法也适用于多机互联电力系统。

4.2.2 轻负载扰动测试

进入实际测试，负荷

在t=1 s时阶跃增50 MW。图18展示了B6处的频率偏差响应、|RoCoF|和VSC输出功率变化。结果表明，综合控制器可有效减小阶跃负荷引起的频率下降（＜0.001 5(pu)），且能快速恢复电网频率。与另外三种方法相比，所提出方法能快速且平稳地将VSC的输出功率提高50 MW，功率振荡也明显更小。该优势反映到频率响应上，就是更平顺的频率恢复曲线和更高的稳态控制精度。

4.2.3 重负载扰动测试

为了测试系统在重负载扰动下的性能，负荷 width=13.5,height=15.75

～

在t=1 s时均阶跃增加100 MW，共300 MW。如果换流站对其进行全额补偿，则需要输出463 MW有功功率，超过了设置的重载线425 MW。B6处频率偏差响应和VSC有功功率参考值调整如图19所示。可见，功率参考值调整被限制在262 MW以内，以确保换流站不会长时间重载或过载运行。但由于存在有功补偿差额，电网频率也存在0.003 8(pu)稳态偏差。

5 结论

本文研究了VSC-HVDC系统的构网型换流站频率支撑控制问题，提出了一种结合最优频率控制和扰动补偿的综合频率控制方法，以改善系统频率振荡并实现快速二次调频。考虑系统模型未知的场景，在积分强化学习框架的基础上设计了基于脉冲摄动激励的策略迭代算法，通过数据驱动的方式求解最优频率控制器。此外，设计了降阶的负荷扰动观测器用于实现扰动补偿控制。最后，搭建等效系统模型和IEEE 9节点系统模型对所提方法进行测试，根据仿真结果，得到以下结论：

1）脉冲摄动激励显著地提升了策略迭代算法的性能，其Critic网络参数不仅收敛更快，收敛精度也高于传统噪声激励方法。

2）综合频率控制方法改善了系统的频率反相振荡问题，功角稳定性也有明显提升。

3）综合频率控制方法能主动补偿负荷侧功率扰动，快速地将目标电网的频率恢复至额定值。

后续的研究将致力于将综合频率控制方法推广至运行场景更为复杂的多端VSC-HVDC系统。

定理1证明如下。

式（13）两边除以T并取极限，即

将式（5）和迭代策略 width=36.75,height=13.5

代入式（A3），可得

在线训练阶段，

，式（A4）等价为

综合式（A1）、式（A2）和式（A5）可得

因此，迭代式（13）和式（14）等价于迭代式（A6）和式（14）。根据文献[22]可知，在初始策略 width=36.75,height=13.5

稳定的前提下，后续的迭代策略将保持稳定，且满足 width=45.75,height=18

，

，定理1证毕。

[1] 詹长江, 吴恒, 王雄飞, 等. 构网型变流器稳定性研究综述[J]. 中国电机工程学报, 2023, 43(6): 2339-2359. Zhan Changjiang, Wu Heng, Wang Xiongfei, et al. An overview of stability studies of grid-forming voltage source converters[J]. Proceedings of the CSEE, 2023, 43(6): 2339-2359.

[2] 韩丽, 陈硕, 王施琪, 等. 考虑风光消纳与电动汽车灵活性的调度策略[J]. 电工技术学报, 2024, 39(21): 6793-6803. Han Li, Chen Shuo, Wang Shiqi, et al. Scheduling strategy considering wind and photovoltaic power consumption and the flexibility of electric vehicles[J]. Transactions of China Electrotechnical Society, 2024, 39(21): 6793-6803.

[3] 姜崇学, 马秀达, 邹强, 等. 柔性直流输电系统的高频谐波保护方法与工程实践[J]. 电力系统自动化, 2024, 48(3): 150-158. Jiang Chongxue, Ma Xiuda, Zou Qiang, et al. High-frequency harmonic protection methods and engineering practice for flexible DC transmission systems[J]. Automation of Electric Power Systems, 2024, 48(3): 150-158.

[4] 王炜宇, 张一平, 李帅虎, 等. 基于扰动观测的构网型柔直系统阻尼控制器设计[J]. 电网技术, 2024, 48(6): 2262-2271. Wang Weiyu, Zhang Yiping, Li Shuaihu, et al. Disturbance observer-based damping controller of grid-forming VSC-HVDC systems[J]. Power System Technology, 2024, 48(6): 2262-2271.

[5] 于国星, 宋蕙慧, 马广富, 等. 含海上风电场的VSC-MTDC系统参与电网调频的顺序控制方法[J]. 电力系统自动化, 2021, 45(4): 123-132. Yu Guoxing, Song Huihui, Ma Guangfu, et al. Sequence control method for VSC-MTDC system with offshore wind farm participating in frequency regulation of power grid[J]. Automation of Electric Power Systems, 2021, 45(4): 123-132.

[6] 姚伟, 熊永新, 姚雅涵, 等. 海上风电柔直并网系统调频控制综述[J]. 高电压技术, 2021, 47(10): 3397-3413. Yao Wei, Xiong Yongxin, Yao Yahan, et al. Review of voltage source converter-based high voltage direct current integrated offshore wind farm on providing frequency support control[J]. High Voltage Engi-neering, 2021, 47(10): 3397-3413.

[7] 谭珺敉, 彭晓涛, 李旭涛, 等. 基于协同控制优化风电-柔直并网惯性响应策略研究[J]. 电工技术学报, 2025, 40(5): 1355-1367. Tan Junmi, Peng Xiaotao, Li Xutao, et al. Optimization of inertia response strategy based on synergetic control for wind power integrating to power grid via VSC-HVDC[J]. Transactions of China Elec-trotechnical Society, 2025, 40(5): 1355-1367.

[8] 王炜宇, 李勇, 曹一家, 等. 基于虚拟调速器的多端直流虚拟同步机控制策略[J]. 中国电机工程学报, 2018, 38(12): 3461-3470, 5. Wang Weiyu, Li Yong, Cao Yijia, et al. The virtual synchronous generator technology based on virtual governor for multi-terminal direct current system[J]. Proceedings of the CSEE, 2018, 38(12): 3461-3470, 5.

[9] 葛平娟, 肖凡, 涂春鸣, 等. 考虑故障限流的下垂控制型逆变器暂态控制策略[J]. 电工技术学报, 2022, 37(14): 3676-3687. Ge Pingjuan, Xiao Fan, Tu Chunming, et al. Transient control strategy of droop-controlled inverter consi-dering fault current limitation[J]. Transactions of China Electrotechnical Society, 2022, 37(14): 3676-3687.

[10] 刘英培, 谢乾, 梁海平. 柔性直流输电系统自适应虚拟惯性调频控制策略[J]. 电力系统自动化, 2021, 45(5): 129-136. Liu Yingpei, Xie Qian, Liang Haiping. Frequency regulation control strategy for flexible DC transmissionsystem based on adaptive virtual inertia[J]. Automation of Electric Power Systems, 2021, 45(5): 129-136.

[11] 刘辉, 于思奇, 孙大卫, 等. 构网型变流器控制技术及原理综述[J]. 中国电机工程学报, 2025, 45(1): 277-297. Liu Hui, Yu Siqi, Sun Dawei, et al. An overview of control technologies and principles for grid-forming converters[J]. Proceedings of the CSEE, 2025, 45(1): 277-297.

[12] 徐菘, 杨博, 刘浩, 等. 一种提高虚拟同步机电流质量的电压-电流级联闭环控制方案[J]. 电工技术学报, 2024, 39(6): 1871-1885. Xu Song, Yang Bo, Liu Hao, et al. A cascaded harmonic voltage and current closed-loop control method to improve the current quality of virtual synchronous generators[J]. Transactions of China Electrotechnical Society, 2024, 39(6): 1871-1885.

[13] 刘思佳, 刘海涛, 张隽, 等. 基于等效阻抗的虚拟同步机电压支撑影响因素分析与改进控制策略研究[J]. 电工技术学报, 2025, 40(9): 2738-2751. Liu Sijia, Liu Haitao, Zhang Jun, et al. Research on the analysis of virtual synchronous generator voltage support influence factors and improvement control strategies based on equivalent impedance[J]. Transactions of China Electrotechnical Society, 2025, 40(9): 2738-2751.

[14] 马秀达, 卢宇, 田杰, 等. 柔性直流输电系统的构网型控制关键技术与挑战[J]. 电力系统自动化, 2023, 47(3): 1-11. Ma Xiuda, Lu Yu, Tian Jie, et al. Key technologies and challenges of grid-forming control for flexible DC transmission system[J]. Automation of Electric Power Systems, 2023, 47(3): 1-11.

[15] 高本锋, 沈雨思, 宋瑞华, 等. 虚拟同步机控制模块化多电平变流器阻抗建模及次/超同步振荡稳定性分析[J]. 电工技术学报, 2025, 40(2): 559-573. Gao Benfeng, Shen Yusi, Song Ruihua, et al. Impedance modeling and sub/super synchronous oscillation stability analysis of modular multilevel converter under virtual synchronous generator control[J]. Transactions of China Electrotechnical Society, 2025, 40(2): 559-573.

[16] 姚为正, 杨美娟, 张海龙, 等. VSC-HVDC受端换流器参与电网调频的VSG控制及其改进算法[J]. 中国电机工程学报, 2017, 37(2): 525-534. Yao Weizheng, Yang Meijuan, Zhang Hailong, et al. VSG control and its modified algorithm for VSC-HVDC inverter participating grid’s frequency regulation [J]. Proceedings of the CSEE, 2017, 37(2): 525-534.

[17] 王炜宇, 易念棋, 蔡晔, 等. 基于功率扰动观测的构网型柔直系统辅助频率控制策略[J]. 中国电机工程学报, 2025, 45(5): 1680-1691. Wang Weiyu, Yi Nianqi, Cai Ye, et al. A power-disturbance observer-based auxiliary frequency control of grid-forming VSC-HVDC systems[J]. Proceedings of the CSEE, 2025, 45(5): 1680-1691.

[18] Leon A E, Mauricio J M. Virtual synchronous generator for VSC-HVDC stations with DC voltage control[J]. IEEE Transactions on Power Systems, 2023, 38(1): 728-738.

[19] Saad H, Peralta J, Dennetière S, et al. Dynamic averaged and simplified models for MMC-based HVDC transmission systems[J]. IEEE Transactions on Power Delivery, 2013, 28(3): 1723-1730.

[20] 李寅生, 王冰, 陈玉全, 等. 基于双人零和博弈的孤岛微电网有界L2增益负荷频率控制[J]. 电力系统自动化, 2024, 48(3): 93-102. Li Yinsheng, Wang Bing, Chen Yuquan, et al. Bounded L2-gain load frequency control for islanded microgrid based on two-player zero-sum game[J]. Automation of Electric Power Systems, 2024, 48(3): 93-102.

[21] Lin Liquan, Huang Jie. Distributed adaptive cooperative optimal output regulation via integral reinforcement learning[J]. Automatica, 2024, 170: 111861.

[22] Kleinman D. On an iterative technique for Riccati equation computations[J]. IEEE Transactions on Automatic Control, 1968, 13(1): 114-115.

[23] Jiao Qiang, Modares H, Xu Shengyuan, et al. Multi-agent zero-sum differential graphical games for disturbance rejection in distributed control[J]. Automatica, 2016, 69: 24-34.

[24] Khalil H K, Praly L. High-gain observers in nonlinear feedback control[J]. International Journal of Robust and Nonlinear Control, 2014, 24(6): 993-1015.

[25] 孔繁镍, 李啸骢, 吴杰康, 等. 基于尼科尔斯PID设计方法的负荷频率控制[J]. 中国电机工程学报, 2012, 32(22): 79-85, 15. Kong Fannie, Li Xiaocong, Wu Jiekang, et al. Design of Nichols PID controller for load frequency control [J]. Proceedings of the CSEE, 2012, 32(22): 79-85, 15.

[26] Cao Yijia, Wang Weiyu, Li Yong, et al. A virtual synchronous generator control strategy for VSC-MTDC systems[J]. IEEE Transactions on Energy Conversion, 2018, 33(2): 750-761.

[27] Kundur P, Balu N, Lauby M. Power System Stability and Control[M]. New York: McGraw-Hill, 1994.

[28] Wang W, Beddard A, Barnes M, et al. Analysis of active power control for VSC-HVDC[J]. IEEE Transactions on Power Delivery, 2014, 29(4): 1978-1988.

Integrated Frequency Control for Grid-Forming VSC Based on Integral Reinforcement Learning

（College of Energy and Electrical Engineering Hohai University Nanjing 211100 China）

Abstract The voltage source converter based high voltage direct current (VSC-HVDC) systems featuring grid-forming (GFM) control can provide critical frequency and voltage support to weak or passive grids, making them a key research focus in modern power systems. This paper proposes a model-free integrated frequency control method for grid-forming voltage source converters (GFM-VSCs) within a virtual synchronous generator (VSG) framework. The method integrates the integral reinforcement learning algorithm-based optimal frequency control with active load disturbance compensation to deliver reliable frequency support to the target AC grid.

Firstly, the dynamic models of the target AC grid and the GFM-VSC were established, and the oscillatory modes present in their coupled operation were analyzed. Subsequently, an optimal frequency controller was designed based on a predefined quadratic performance index to improve system damping, independent of the VSG parameters. To address unknown model dynamics, a policy iteration algorithm utilizing impulse perturbation excitation was developed under an integral reinforcement learning framework, to solve the optimal frequency controller in a fully data-driven manner. Furthermore, a reduced order load disturbance observer was designed, along with a disturbance compensation controller. This ancillary disturbance compensation module was used to enhance the VSC’s active response to load disturbances, enable rapid secondary frequency regulation, and operate in coordination with the optimal frequency controller trained by the policy iteration algorithm.

The performance of the proposed method was evaluated using an equivalent system test model and the IEEE standard 9-Bus test model, both implemented in Matlab/Simulink. Comparative analysis included three alternative approaches: the VSG with a Nichols-PI regulator, the VSG with a V2-P-w droop regulator, and the traditional VSG scheme. During online training, the Critic neural network parameters converged within 10 iterations. The proposed impulse perturbation excitation method reduced the error norm of the Critic parameter matrix to below 0.24, demonstrating higher accuracy than traditional noise based excitation method, which achieved only 1.64. Under a 50 MW step load disturbance, the integrated frequency control method limited frequency deviations to within 0.001(pu) in the equivalent system and 0.001 5(pu) in the IEEE 9-Bus system. The grid frequency was restored to the nominal value within 1.5 s. The proposed method exhibited significantly better frequency support performance than the three benchmark methods. It also provided faster rate of change of frequency (RoCoF) attenuation and notably suppressed frequency and power oscillations. Under a heavy load test scenario (exceeding 85% of the rated power), the method successfully restricted the active power reference command to the predefined safety limit. This ability protected the VSC from overload beyond safe durations.

Based on the simulation analysis, the following conclusions can be drawn: (1) The policy iteration algorithm incorporating impulse perturbation excitation demonstrates accelerated convergence rate and enhanced precision compared to the traditional noise based excitation methods. (2) The proposed integrated frequency control method demonstrates superior damping performance under load disturbances, significantly attenuating RoCoF, as well as frequency and power oscillations. (3) The proposed integrated frequency control method effectively compensates load-side disturbances and ensures prompt restoration of the grid frequency to its nominal value.

Keywords：Voltage source converter based high voltage direct current (VSC-HVDC), grid-forming control, virtual synchronous generator, integral reinforcement learning, load disturbance compensation

国家重点研发计划（2022YFB4201303）和国家自然科学基金（62303158）资助项目。

李寅生男，1995年生，博士研究生，研究方向为新型电力系统分析与控制、强化学习与智能优化控制。E-mail: 15150693623@139.com

王冰男，1975年生，教授，博士生导师，研究方向为可再生能源发电控制、多智能体网络控制。E-mail: icekingking@hhu.edu.cn（通信作者）