摘要 随着电动汽车(EV)的广泛应用和风电、光伏等可再生能源大规模接入电网,如何充分发挥EV需求响应潜力,解决电网功率波动、负荷稳定性差等问题具有重要意义。为此,该文提出一种基于非对称一致性学习的多类型EV协同参与需求响应方法。首先,将参与需求响应的EV分为灵活签约EV和固定签约EV,并提出多类型EV协同参与需求响应调度架构。其次,提出一种基于非对称一致性学习的多类型EV协同参与需求响应策略:灵活签约EV以最大化自身收益、里程保障以及负荷曲线方差加权差为目标,基于柔性强化学习进行自主需求响应决策并自主参与电网需求响应;基于灵活签约EV自主需求响应结果,固定签约EV以最小化聚合需求响应成本为目标,进行出力功率非对称一致性优化并聚合参与电网需求响应。所提非对称一致性学习算法能够高效处理高维度复杂非线性关系,具有较强的自主学习和泛化能力。最后,通过仿真算例验证所提多类型EV协同参与需求响应方法的有效性与合理性。
关键词:多类型电动汽车 柔性强化学习 非对称一致性 优化协同 需求响应
随着“碳达峰、碳中和”目标的提出,以风光发电为主的高比例可再生能源广泛接入电网,给电网的安全稳定运行带来巨大挑战,电网对灵活调节资源的需求显著提升[1-4]。电动汽车(Electric Vehicles, EV)作为一种新型柔性负荷,具有较强的灵活性和可调度性[5-7]。截至2023年6月底,以EV为代表的新能源汽车保有量达1 259.4万辆,预计2030年将达到8 300万辆,最大充电负荷占电网总负荷的11%~12%[8-10]。EV参与电网需求响应,能够减轻可再生能源对电网稳定性的影响,为电网灵活调节提供支持。EV可分为固定签约和灵活签约两类。固定签约EV易于集中控制,但缺乏灵活性;灵活签约EV可以实现分散响应,充分发挥需求响应潜力,但协调困难。因此,如何实现多类型EV协同参与需求响应是一个亟须解决的问题。
目前,国内外学者已经对EV参与电网需求响应开展了广泛研究,包括聚合型需求响应和自主型需求响应两类。聚合型需求响应通过聚合商将固定签约EV进行集中管理,实现规模化需求响应决策。文献[11]提出以EV聚合商收益最大为目标的计划功率与备用容量联合优化模型,并利用麻雀搜索算法与线性规划进行联合求解。文献[12]提出一种基于迭代定价的EV需求响应方案,在满足EV、聚合商和配电网运营商三方需求的前提下,有效保障了电网负荷稳定性。自主型需求响应允许灵活签约EV根据个人偏好和限制自主地进行需求响应决策。文献[13]提出基于马尔可夫决策过程的EV补贴价格决策优化模型,以售电商和EV用户综合收益最大化为目标制定EV用户参与需求响应策略,提高电力系统稳定性。文献[14]以最小化机组发电成本和EV补贴成本为目标,建立考虑EV用户参与的电网机组经济调度模型,实现EV充电和机组出力的联合优化调度,有效降低需求响应成本。
一致性算法因其具有计算复杂度低、运行效率高等优点而在EV需求响应领域得到广泛应用。文献[15]提出一种基于动态一致性算法保护用户隐私的EV电网频率安全调度策略,保障EV集群参与辅助调频服务的隐私安全。文献[16]以EV集群增量效益为一致性变量,提出一种基于一致性算法的EV集群参与电网需求响应的经济调度算法,提高EV集群调度的经济性。然而,上述研究忽略了一致性优化过程中EV集群聚合容量等差异化特征信息引起的信息不对称问题,难以充分发挥EV参与需求响应的潜力与灵活性,导致其聚合调控收敛速度较慢,聚合出力成本较高。深度强化学习(Deep Reinforcement Learning, DRL)在EV上构建智能体网络,通过智能体与需求响应环境之间不断地交互,学习最优决策。文献[17]提出一种基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法的EV充放电行为实时优化方法,以EV充放电成本最小为优化目标,同时兼顾用户的舒适性和电网对EV负荷的限制,在保证用户用电需求的前提下,实现峰值负荷的转移。文献[18]以EV用户行程惩罚和平均负荷峰值为优化目标,采用深度Q网络(Deep Q Network, DQN)进行EV需求响应策略优化,实现负荷峰值转移,有效地降低了峰值负荷。
然而,上述研究仍面临以下挑战:首先,现有方法未充分考虑两类需求响应之间的有机融合,难以实现灵活签约EV自主需求响应和固定签约EV聚合需求响应二者之间的协同交互;其次,现有聚合需求响应策略优化方法忽略了EV聚合调控过程中由于各主体差异化特征信息引起的信息不对称问题,难以充分发挥固定签约EV参与需求响应的潜力与灵活性,导致其聚合调控收敛速度较慢,聚合出力成本较高;最后,现有自主需求响应策略优化方法采用固定折扣率指导灵活EV智能体学习,无法实现对即时奖励和长期回报的动态折中平衡,导致学习效果较差,灵活签约EV需求响应收益较低,里程保障成本较高,电网负荷波动性较大。
针对上述挑战,本文提出一种基于非对称一致性学习的多类型EV协同参与需求响应方法。首先,将参与需求响应的EV分为灵活签约EV和固定签约EV,并提出多类型EV参与需求响应的协同调度架构。其次,提出一种基于非对称一致性学习的多类型EV协同需求响应策略,具体而言,灵活签约EV以最大化自身收益、里程保障以及电网负荷曲线方差加权差为目标,基于柔性强化学习进行自主需求响应决策并自主参与电网需求响应;基于灵活签约EV自主需求响应结果,对固定签约EV进行出力功率的非对称一致性优化,以最小化聚合需求响应成本,并基于优化结果聚合参与电网需求响应。所提非对称一致性学习算法能够高效处理高维度复杂非线性关系,具有较强的自主学习和泛化能力。最后,通过仿真算例验证本文所提多类型EV协同参与需求响应方法的有效性与合理性。
多类型EV协同参与需求响应调控架构如图1所示,包括灵活签约EV和固定签约EV。电网调度中心基于光伏、风电等新能源出力以及负荷等信息发布需求,灵活签约EV和固定签约EV分别在电网调度中心电价激励和补偿激励下协同参与需求响应。其中,灵活签约EV无须与EV聚合商签署协议,而是基于自身出行需求和电网侧相关信息自主进行需求响应决策;固定签约EV则与EV聚合商签署需求响应协议,由EV聚合商进行聚合调控,EV聚合商则需按协议给予固定签约EV一定的经济补偿。灵活签约EV与固定签约EV之间的协同主要体现在两个方面:①灵活签约EV自主参与需求响应后,固定签约EV基于其自主响应缺额进行聚合需求响应,两者协同满足电网需求;②固定签约EV在聚合参与需求响应之后,将其聚合响应结果反馈至灵活签约EV,灵活签约EV基于反馈信息动态调整其自主需求响应策略。
图1 多类型EV协同参与需求响应调度架构
Fig.1 Cooperative participation demand response scheduling architecture of multi-type EVs
2.1.1 储能模型
考虑M个灵活签约EV,第个灵活签约EV的储能模型为
式中,为储能电量;
和
分别为充电和放电功率;
为时间间隔。
EV的荷电状态(State of Charge, SOC)为
式中,为EVm电池的荷电状态;
为储能电池额定容量。
EV参与需求响应的充电容量
和放电容量
分别表示为
式中,和
分别为EVm的荷电状态上、下限。
2.1.2 收益模型
EV参与需求响应的收益
为充放电收益和电池损耗成本之差,表示为
式中,和
分别为t时刻的充放电价;
为EVm的充放电损耗系数。
2.1.3 里程保障成本模型
为了保障灵活签约EV的出行能力,基于其离网时对荷电状态的需求构建里程保障成本模型。假设EVm入网和离网时刻分别为和
,则其里程保障成本
表示为
式中,为EVm的里程保障成本系数,取值越大表示保障EVm出行能力权重越大;
为EVm离网时刻
荷电状态目标值。
2.2.1 聚合签约容量模型
考虑个EV聚合商,定义t时刻聚合商
所聚合固定签约EV的集合为
,则聚合签约容量
表示为
式中,为固定签约EVn储能电池额定容量;
和
分别为EVn荷电状态上、下限。
2.2.2 聚合出力成本模型
EV聚合商调控固定签约EV聚合参与需求响应的成本主要包括聚合商运营成本和固定签约EV经济补偿成本两部分,表示为
式中,为聚合商i的需求响应成本;
为聚合出力功率;
、
、
分别为运营成本系数;
为固定签约EV经济补偿系数。
为衡量灵活签约EV自主需求响应效果,引入电网负荷曲线方差来衡量负荷波动性,表示为
式中,为电网初始负荷。
3.1.1 目标函数
通过优化灵活签约EV充放电功率,最大化灵活签约EV收益、里程保障成本与电网负荷曲线方差加权差,建立目标函数表达式为
式中,和
分别为灵活签约EV收益和里程保障成本权重;
为电网负荷曲线方差权重;T为总优化时间尺度。
3.1.2 约束条件
1)灵活签约EV在同一时刻不能同时处于充电和放电状态,需满足自主需求响应策略约束,即
2)灵活签约EV荷电状态上、下限约束为
(11)
3)灵活签约EV充放电功率上、下限约束为
式中,和
分别为灵活签约EV充电功率上限和下限;
和
分别为灵活签约EV放电功率上限和下限。
3.2.1 目标函数
通过优化固定签约EV聚合商出力功率,最小化聚合出力成本,建立目标函数表达式为
式中,P为表示EV聚合商出力功率向量,。
3.2.2 约束条件
1)固定签约EV聚合出力平衡约束
式中,为灵活签约EV自主响应缺额,表示为
(15)
式中,表示电网需要两类EV协同进行充电,实现电网负荷填谷;
表示电网需要两类EV协同进行放电,实现电网负荷削峰。当
时,表示需要固定签约EV聚合充电来弥补自主响应缺额;当
时,表示需要固定签约EV聚合放电来弥补自主响应缺额。
2)固定签约EV荷电状态上、下限约束为
传统需求响应调度方法在求解EV自主需求响应决策时采用固定折扣率,在EV动态参与需求响应场景下,无法实现对即时奖励和长期回报的动态折中平衡,导致学习效果较差,EV需求响应收益较低,里程保障成本较高,电网负荷波动性较大。此外,在求解聚合需求响应决策时,传统需求响应调度方法仅依据对称拓扑关系确定聚合商之间状态信息的一致性通信权重,忽略了由于聚合商所聚合EV的差异化特征信息而引起的信息不对称问题,导致EV聚合调控收敛速度较慢,聚合出力成本较高。
针对上述问题,本文提出一种基于非对称一致性学习的多类型EV协同参与需求响应调度算法,原理如图2所示。
非对称一致性学习是一种融合了深度强化学习强大自主学习能力和非对称一致性算法快速收敛特性的学习算法。该算法利用深度神经网络来逼近和学习复杂的值函数,通过最小化所选动作对应的贝尔曼误差来更新值函数,使智能体在与环境不断交互的过程中逐步学习到最优决策策略,实现长期回报的最大化。同时,非对称一致性学习算法在考虑各智能体通信拓扑的基础上,基于各智能体差异化特征信息计算智能体之间的非对称通信权重,并基于非对称通信权重进行智能体状态信息的非对称一致性优化,实现智能体之间状态信息的一致性收敛。非对称一致性学习算法能够高效地处理高维度复杂非线性关系、适应于多种任务领域,支持系统灵活性与扩展性,具有较强的自主学习和泛化能力。所提算法基于柔性折扣率进行灵活签约EV自主需求响应策略学习,可以根据灵活签约EV自主需求响应结果动态调整折扣率,实现即时奖励和长期回报的动态折中平衡,有效提高EV需求响应收益,降低里程保障成本和电网负荷波动性。同时,所提算法充分考虑聚合商签约容量、固定签约EV数量与签约次数等差异化特征信息,对聚合商状态信息置信度进行量化,并在此基础上结合灵活签约EV自主需求响应结果计算聚合商之间状态信息的非对称一致性通信权重,实现固定签约EV聚合需求响应策略的非对称一致性优化,有效提高EV聚合商调控收敛速度,降低聚合出力成本。所提算法流程如图3所示,主要包括灵活签约EV自主需求响应、固定签约EV聚合需求响应、聚合奖励计算以及柔性网络更新四个步骤,具体介绍如下。
图2 基于非对称一致性学习的多类型EV协同参与需求响应调度算法
Fig.2 Asymmetric consensus learning-based cooperative participation demand response scheduling algorithm of multi-type EVs
图3 所提算法流程
Fig.3 Flow chart of the proposed algorithm
每个灵活签约EV上部署有自主需求响应决策智能体,包含决策网络、目标网络
以及经验回放池等部分。在每一时刻初,智能体感知环境状态
(
),
为状态空间。然后,智能体将状态
输入决策网络
,并根据其所输出的状态-动作Q值选择动作
(
,
)为动作空间,所选动作表示为
为确保灵活签约EV智能体在动作选择过程中能够充分地探索其他动作及其效益,引入探索因子来控制灵活签约EV实际执行的动作,即灵活签约EV以
的概率从动作空间中随机选择一个动作执行,以
的概率执行根据式(17)选择的动作。同时,为了提高灵活签约EV智能体动作选择的稳定性与收敛性,利用衰减因子
对探索因子进行衰减,即
。
灵活签约EV执行自主需求响应动作,并计算局部奖励,表示为
灵活签约EV完成自主需求响应之后,电网调控中心根据式(15)计算并发布自主需求响应缺额信息。
根据固定签约EV聚合商的聚合签约容量、固定签约EV数量和签约次数计算聚合商状态信息的置信度
,即
式中,为置信度系数;
为聚合商
所聚合固定签约EV的平均签约次数;
为固定签约EV数量。
基于状态信息置信度,综合考虑灵活签约EV自主需求响应缺额与固定签约EV聚合商聚合签约容量,计算聚合商之间状态信息的非对称一致性通信权重,表示为
式中,为非对称通信系数;
为灵活签约EV自主需求响应缺额权重。聚合商
在与状态信息置信度低于自己的聚合商
进行状态信息交互时,会相应地降低聚合商
的通信权重,以减小低置信度状态信息对自身状态信息收敛速度的影响;反之,聚合商
会增大通信权重,以加快状态信息收敛速度。通过充分考虑不同聚合商状态信息的置信度,并基于非对称通信权重进行状态信息交互,能够有效地提高聚合商状态信息收敛速度。
以聚合商增量成本为状态信息,基于非对称通信权重进行状态信息非对称一致性迭代优化,表示为
式中,和
为计及聚合商
与聚合商
历史状态信息第r次和r+1次迭代的修正量;
为非对称一致性迭代次数。
聚合商之间状态信息迭代至收敛后,根据状态信息收敛值可得各个聚合商的出力功率。收敛条件和聚合商出力功率表示为
式中,为迭代收敛域值;
为聚合商状态信息非对称一致性收敛值。
固定签约EV在聚合商聚合调控之下执行聚合需求响应动作,根据式(13)计算聚合出力成本并反馈至电网调度中心。
电网调度中心充分考虑灵活签约EV自主需求响应缺额、固定签约EV聚合出力成本以及电网负荷波动情况等信息计算需求响应全局奖励,并下发至灵活签约EV,以此激励其学习并制定更加合理的自主需求响应决策,充分发挥其需求响应潜力。
表示为
式中,、
分别为聚合出力成本和电网负荷曲线方差的权重系数。
考虑到灵活签约EV对需求响应全局奖励贡献各不相同,为进一步发挥其需求响应潜力,基于各个灵活签约EV自主需求响应动作Q值,对全局奖励进行分配,并结合灵活签约EV局部奖励计算聚合奖励。灵活签约EV对全局奖励的贡献占比以及聚合奖励
分别表示为
4.4 柔性网络学习更新
灵活签约EV智能体在学习过程中需要兼顾其即时奖励与长期回报,折扣率表征灵活签约EV对长期聚合奖励的重视程度,
取值越趋近于1,表示越重视长期聚合奖励,相应的智能体训练和学习难度越大。本文基于灵活签约EV自主需求响应缺额、聚合奖励,以及固定签约EV聚合出力成本设计柔性折扣率
,表示为
当灵活签约EV自主需求响应缺额较大、聚合奖励较小,且固定签约EV聚合出力成本较高时,表明灵活签约EV学习效果较差,此时较小,可以引导灵活签约EV更加注重即时聚合奖励,从而快速改善学习效果;反之,表明此时灵活签约EV学习效果较好,此时
较大,可以引导灵活签约EV智能体更加注重长期的聚合奖励,在保障当下较高聚合奖励的前提下尽可能地提高未来聚合奖励,进而提高需求响应性能。
灵活签约EV智能体从经验回放池中随机抽取一组“经验知识”,基于柔性折扣率
计算柔性损失函数
,表示为
式中,l表示经验知识中第l个样本对应的物理量。
灵活签约EV通过构建两个结构相同但异步更新的神经网络和
,在柔性损失函数计算过程中,
用于预测下一时刻的需求响应动作,
用于预测被选择需求响应动作的价值,实现动作决策与动作评估的解耦。
基于,灵活签约EV智能体采用随机梯度下降法更新决策网络参数
。
的参数更新则是以一定步长为周期将
的参数复制于
,该异步更新机制能够保障灵活签约EV智能体在非对称一致性学习过程中梯度方向稳定,提高学习的稳定性。
所提算法基于柔性强化学习进行灵活签约EV自主需求响应策略优化,并在其自主需求响应缺额基础上采用非对称一致性算法进行固定签约EV聚合需求响应策略优化,实现多类型EV协同参与电网需求响应。在固定签约EV聚合需求响应策略的非对称一致性优化过程中,各个固定签约EV聚合商之间能够互相通信,拓扑具有强连通性,且聚合商之间的拓扑关系不随时间变化,故所提算法具有较强的一致性收敛特性与稳定性[19-20]。虽然,柔性强化学习会对灵活签约EV自主需求响应缺额产生一定的扰动,但是,自主需求响应缺额的变化只是影响固定签约EV聚合出力的功率总量,对固定签约EV聚合需求响应策略优化过程并没有影响。此外,非对称通信权重的考虑不会改变各个EV聚合商之间的通信和拓扑关系,不会影响所提算法的一致性收敛特性与稳定性。因此,所提算法在实现多类型EV协同参与电网需求响应的同时具有较强的一致性、收敛特性和稳定性。
本文考虑1 000辆EV以及6个固定签约EV聚合商参与电网需求响应的场景,其中,灵活签约EV和固定签约EV市场占比分别为70%和30%[21-22],EV及EV聚合商详细参数具体见表1和表2。
表1 EV相关参数
Tab.1 Related parameters of EV
参数数值 EV储能电池额定容量/(kW·h)48 EV储能电池荷电状态上限0.95 EV储能电池荷电状态下限0.2 EV最大充放电功率/kW4 EV最小充放电功率/kW1
表2 EV聚合商相关参数
Tab.2 Related parameters of EV aggregator
参数聚合EV占比(%) 聚合商10.0961.225115 聚合商20.0723.413120 聚合商30.1052.537810 聚合商40.0824.024220 聚合商50.0743.173415 聚合商60.0981.356520
仿真时长为24 h,步长为15 min。原始负荷数据参考文献[23]进行设定,如图4中柱状图所示,图4中曲线则是电网调度中心希望通过多类型EV协同参与需求响应达到的目标负荷曲线。参考文献[24] 设置分时电价,具体如图5所示。一天内不同时间EV入网量参考文献[25]进行设定。假设EV入网荷电状态符合正态分布,灵活签约EV在网时间符合分布
,离网目标荷电状态符合分布
。
图4 原始负荷和目标负荷曲线
Fig.4 Original load and target load curves
图5 分时电价模型
Fig.5 Time-of-use electricity price
5.2.1 需求响应能力评估
负荷曲线对比如图6所示。无序充电模式下,EV对02:00—06:00的负荷低谷贡献较小,虽然EV采取入网即开始充电的策略,但是由于该时间段内入网的EV数量较少,对电网负荷水平的提高贡献较小,填谷效果不明显;另一方面,在18:00—22:00时段,大量到达的EV极大地提高了电网峰值负荷。因此,无序充电无法实现EV负荷在时间上的迁移。与无序充电相比,所提算法在各个时间段基本满足了电网的目标负荷需求,实现了较好的削峰填谷效果。通过使前一天18:00—22:00负荷高峰期大量入网的灵活EV,结合自身储能状况以及未来出行需求,相应地延迟自身充电时间,从而将EV负荷从前一天的高峰期向当天2:00—6:00的低谷期转移,降低电网负荷水平。
图6 负荷曲线对比
Fig.6 Comparison of load curves
5.2.2 经济性分析
图7为所有灵活签约EV在一天各个时段的收益与总收益。
图7 EV收益和总收益
Fig.7 EV income and total income
总收益定义为一天内所有灵活签约EV各个时段收益之和,表示为
在电网负荷低谷时段,灵活签约EV进行充电,收益为负值;在电网负荷高峰时段,EV将在负荷低谷期充电累积的电能进行释放,从而赚取峰谷间电价差价,提高自身收益,使得平均总收益达到较高水平。上述结果表明,所提算法能够有效地提高EV用户参与电网需求响应的积极性。
5.2.3 用户舒适度分析
定义用户舒适度指标反映灵活签约EV在参与电网需求响应过程中的用户舒适性,表示为
图8展示了里程保障系数对灵活签约EV总收益以及用户舒适度的影响。随着里程保障系数增大,灵活签约EV愈加注重里程保障,从而降低其在参与电网调峰时的放电深度,导致收益水平下降;但另一方面,灵活签约EV离网时刻荷电状态距离目标值差距更小,提升了用户舒适度。因此,所提算法通过设置合适的里程保障系数,能够满足灵活签约EV差异化的里程保障需求,在提高需求响应积极性的同时保障EV用户舒适度。
图8 里程保障系数的影响
Fig.8 Impact of mileage guarantee coefficient
图9展示了5辆灵活签约EV参与电网需求响应过程中荷电状态的变化情况。从图9中可以看出,5辆EV在离网时刻的荷电状态均达到目标值,里程保障需求得以满足,用户舒适度较高。其中,EV4和EV5入网之后便采取充电策略,既满足了电网负荷需求,也在离网之前达到了自身出行需求;EV1、EV2和EV3在负荷低谷期入网,入网之后均采取充电策略来不断提升自身SOC值,当时间到达负荷高峰期时,3辆EV陆续调整策略,向电网放电,但EV2和EV3放电时间持续较短便又开始充电,这是因为它们即将离网,此时需要提高自身SOC值,以满足自身出行需求。综上所述,在所提算法优化之下,EV能够结合电网负荷状况以及自身里程保障需求动态地调整自身需求响应策略,实现负荷从波峰向波谷的转移,极大地提高电网削峰填谷效果的同时也有效地保障了灵活签约EV用户的舒适度。
图9 5辆EV的SOC
Fig.9 SOC of 5 EVs
5.2.4 收敛性分析
图10展示了自主需求响应场景下所提算法与传统需求响应调度(DQN)算法的收敛性对比。传统算法采用固定折扣率进行灵活签约EV智能体学习与训练[26]。与传统算法相比,所提算法智能体奖励提高了34.42%,收敛速度提高了27.96%。这是因为所提算法基于柔性折扣率指导智能体学习,能够根据实际环境以及自身学习效果动态地调整学习重心,实现当下聚合奖励与未来聚合奖励之间的动态平衡,有效地提升智能体学习效果,提高智能体聚合奖励收敛性与稳定性。
图10 智能体聚合奖励
Fig.10 Aggregated rewards of agent
图11展示了聚合需求响应场景下,04:00—04:15时段内,所提算法与传统算法各个EV聚合商增量成本的迭代过程。
图11 EV聚合商增量成本迭代过程
Fig.11 Incremental cost iteration process of EV aggregator
传统算法采用对称的状态信息一致性通信权重[27]。与传统算法相比,所提算法聚合商增量成本收敛速度提高了36.36%。这是因为所提算法考虑了固定签约EV聚合商之间状态信息的非对称性,能够基于非对称通信权重实现状态信息差异化更新,有效地提高了状态信息一致性的收敛速度与稳定性。
本文面向多类型EV参与需求响应的调控需求,提出一种基于非对称一致性学习的多类型EV协同参与需求响应方法,将EV分为灵活签约EV和固定签约EV,通过灵活签约EV自主需求响应和固定签约EV聚合需求响应协同优化,降低电网调峰压力,改善削峰填谷灵活性,提高电网负荷稳定性。该算法基于柔性强化学习优化灵活签约EV自主需求响应策略,最大化EV收益、里程保障以及负荷曲线方差加权差。进一步通过聚合需求响应弥补自主需求响应缺额,基于非对称一致性算法优化固定签约EV聚合出力功率,最小化聚合需求响应成本。仿真结果表明,所提方法能够将灵活签约EV自主需求响应奖励提高34.42%,奖励收敛速度提高27.96%;固定签约EV聚合商增量成本收敛速度提高36.36%,且在极大地提高电网削峰填谷效果的同时也有效地保障了EV用户的舒适度。所提非对称一致性学习算法能够高效地处理高维度复杂非线性关系,适应于多种任务领域,支持系统的灵活性与扩展性,具有较强的自主学习和泛化能力。在未来研究工作中,将进一步考虑实时电价激励机制在线优化对多类型EV协同参与需求响应的影响。
参考文献
[1] 辛保安, 单葆国, 李琼慧, 等. “双碳”目标下“能源三要素”再思考[J]. 中国电机工程学报, 2022, 42(9): 3117-3126. Xin Baoan, Shan Baoguo, Li Qionghui, et al. Rethinking of the “three elements of energy” toward carbon peak and carbon neutrality[J]. Proceedings of the CSEE, 2022, 42(9): 3117-3126.
[2] 杨锡勇, 张仰飞, 林纲, 等. 考虑需求响应的源-荷-储多时间尺度协同优化调度策略[J]. 发电技术, 2023, 44(2): 253-260. Yang Xiyong, Zhang Yangfei, Lin Gang, et al. Multi-time scale collaborative optimal scheduling strategy for source-load-storage considering demand response [J]. Power Generation Technology, 2023, 44(2): 253-260.
[3] 徐湘楚, 米增强, 詹泽伟, 等. 考虑多重不确定性的电动汽车聚合商参与能量-调频市场的鲁棒优化模型[J]. 电工技术学报, 2023, 38(3): 793-805. Xu Xiangchu, Mi Zengqiang, Zhan Zewei, et al. A robust optimization model for electric vehicle aggregator participation in energy and frequency regulation markets considering multiple uncertainties[J]. Transa-ctions of China Electrotechnical Society, 2023, 38(3): 793-805.
[4] 鲁宗相, 李昊, 乔颖. 从灵活性平衡视角的高比例可再生能源电力系统形态演化分析[J]. 全球能源互联网, 2021, 4(1): 12-18. Lu Zongxiang, Li Hao, Qiao Ying. Morphological evolution of high-proportion renewable energy power system from the perspective of flexibility balance[J]. Global Energy Internet, 2021, 4(1): 12-18.
[5] 吴珊, 边晓燕, 张菁娴, 等. 面向新型电力系统灵活性提升的国内外辅助服务市场研究综述[J]. 电工技术学报, 2023, 38(6): 1662-1677. WuShan, BianXiaoyan, ZhangJingxian, et al. A review of domestic and foreign ancillary services market for improving flexibility of new power system[J]. Transactions of China Electrotechnical Society, 2023, 38(6): 1662-1677.
[6] 周玮, 徐从明, 杨丹霞, 等. P2P能源共享下考虑意愿动态调整的电动汽车群需求响应策略研究[J]. 中国电机工程学报, 2023, 43(21): 8217-8230. Zhou Wei, Xu Congming, Yang Danxia, et al. Research on demand response strategy of electric vehicles considering dynamic adjustment of willingness under P2P energy sharing[J]. Proceedings of the CSEE, 2023, 43(21): 8217-8230.
[7] Shi Xiaoying, Xu Yinliang, Guo Qinglai, et al. Optimal dispatch based on aggregated operation region of EV considering spatio-temporal distribution [J]. IEEE Transactions on Sustainable Energy, 2022, 13(2): 715-731.
[8] 黄小庆, 李隆意, 徐鹏鑫, 等. 多主体博弈共赢的电动汽车充电桩共享方法[J]. 电工技术学报, 2023, 38(11): 2945-2961. Huang Xiaoqing, Li Longyi, XuPengxin, et al. Electric vehicle charging pile sharing method based on multi-subject game and win-win[J]. Transactions of China Electrotechnical Society, 2023, 38(11): 2945-2961.
[9] Gao Xiang, Chan K W, Xia Shiwei, et al. A multiagent competitive bidding strategy in a pool-based electricity market with price-maker participants of WPPs and EV aggregators[J]. IEEE Transactions on Industrial Informatics, 2021, 17(11): 7256-7268.
[10] 王雨晴, 王文诗, 徐心竹, 等. 面向低碳交通的含新能源汽车共享站电-氢微能源网区间-随机混合规划方法[J]. 电工技术学报, 2023, 38(23): 6373-6390. Wang Yuqing, Wang Wenshi, Xu Xinzhu, et al. Hybrid interval/stochastic planning method for new energy vehicle sharing station-based electro-hydrogen micro-energy system for low-carbon transportation[J]. Transactions of China Electrotechnical Society, 2023, 38(23): 6373-6390.
[11] 胡俊杰, 马文帅, 薛禹胜, 等. 基于CPSSE框架的电动汽车聚合商备用容量量化[J]. 电力系统自动化, 2022, 46(18): 46-54. Hu Junjie, Ma Wenshuai, Xue Yusheng, et al. Quantification of reserve capacity provided by electric vehicle aggregator based on framework of cyber-physical-social system in energy[J]. Automation of Electric Power Systems, 2022, 46(18): 46-54.
[12] Kapoor A, Patel V S, Sharma A, et al. Centralized and decentralized pricing strategies for optimal scheduling of electric vehicles[J]. IEEE Transactions on Smart Grid, 2022, 13(3): 2234-2244.
[13] 徐弘升, 陆继翔, 杨志宏, 等. 基于深度强化学习的激励型需求响应决策优化模型[J]. 电力系统自动化, 2021, 45(14): 97-103. Xu Hongsheng, Lu Jixiang, Yang Zhihong, et al. Incentive demand response decision optimization model based on deep reinforcement learning[J]. Automation of Electric Power Systems, 2021, 45(14): 97-103.
[14] 赵小瑾, 张开宇, 冯冬涵, 等. 基于强化学习的电动汽车集群实时优化调度策略[J]. 智慧电力, 2022, 50(1): 53-59, 81. Zhao Xiaojin, Zhang Kaiyu, Feng Donghan, et al. Reinforcement learning-based real-time optimal scheduling strategy for electric vehicle clusters[J]. Smart Power, 2022, 50(1): 53-59, 81.
[15] 王建中, 焦振华, 叶伟强, 等. 考虑隐私保护的含电动汽车电网频率安全调度[J]. 电力系统及其自动化学报, 2023, 35(8): 143-151. Wang Jianzhong, Jiao Zhenhua, Ye Weiqiang, et al. Frequency security scheduling of power grid with electric vehicles considering privacy protection[J]. Proceedings of the CSU-EPSA, 2023, 35(8): 143-151.
[16] 刘春涛, 宋运忠. 基于负荷均衡加载的电力系统分布式经济调度策略[J]. 电力系统保护与控制, 2022, 50(20): 139-148. Liu Chuntao, Song Yunzhong. Distributed economic dispatch strategy of a power system based on load balancing loading[J]. Power System Protection and Control, 2022, 50(20): 139-148.
[17] 戴武昌, 刘艾冬, 申鑫, 等. 基于MADDPG算法的家用电动汽车集群充放电行为在线优化[J]. 东北电力大学学报, 2021, 41(5): 80-89. Dai Wuchang, Liu Aidong, Shen Xin, et al. Online optimization of charging and discharging behaviors of domestic electric vehicle clusters based on MADDPG algorithm[J]. Journal of Northeast Electric Power University, 2021, 41(5): 80-89.
[18] Li Donghe, Yang Qingyu, Ma Linyue, et al. An electrical vehicle-assisted demand response management system: a reinforcement learning method[J]. Frontiers in Energy Research, 2023.
[19] Lu Jie, Tang C Y. Zero-gradient-sum algorithms for distributed convex optimization: the continuous-time case[J]. IEEE Transactions on Automatic Control, 2012, 57(9): 2348-2354.
[20] Zhang Ziang, Chow M Y. Convergence analysis of the incremental cost consensus algorithm under different communication network topologies in a smart grid[J]. IEEE Transactions on Power Systems, 2012, 27(4): 1761-1768.
[21] 章攀钊, 谢丽蓉, 马瑞真, 等. 考虑电动汽车集群可调度能力的多主体两阶段低碳优化运行策略[J]. 电网技术, 2022, 46(12): 4809-4825. Zhang Panzhao, Xie Lirong, Ma Ruizhen, et al. Multi-player two-stage low carbon optimal operation stra-tegy considering electric vehicle cluster schedulable ability[J]. Power Grid Technology, 2022, 6(12): 809-4825.
[22] 何晨可, 朱继忠, 刘云, 等. 计及碳减排的电动汽车充换储一体站与主动配电网协调规划[J]. 电工技术学报, 2022, 37(1): 92-111. He Chenke, Zhu Jizhong, Liu Yun, et al. Coordinated planning of electric vehicle charging-swapping- storage integrated station and active distribution network considering carbon reduction[J]. Transactionsof China Electrotechnical Society, 2022, 37(1): 92-111.
[23] 王育飞, 郑云平, 薛花, 等. 基于增强烟花算法的移动式储能削峰填谷优化调度[J]. 电力系统自动化, 2021, 45(5): 8-56. Wang Yufei, Zheng Yunping, Xue Hua, et al. Optimal dispatch of mobile energy storage for peak load shifting based on enhanced firework algorithm[J]. Automation of Electric Power Systems, 2021, 45(5): 48-56.
[24] 李军, 梁嘉诚, 刘克天, 等. 计及用户响应度的电动汽车充放电优化调度策略[J]. 南方电网技术, 2023, 17(8): 123-132. Li Jun, Liang Jiacheng, Liu Ketian, et al. Optimal scheduling strategy for electric vehicles charging and discharging considering user responsiveness[J]. Sou-thern Power System Technology, 2023, 17(8): 123-132.
[25] 李清涛, 卢钺, 刘洋, 等. 计及电动汽车的有源配电网新能源消纳两阶段调度策略[J]. 热力发电, 2022, 51(9): 54-62. Li Qingtao, Lu Yue, Liu Yang, et al. Two-stage dispatch strategy for new energy consumption in active distribution network considering electric vehicles[J]. Thermal Power Generation, 2022, 51(9): 54-62.
[26] 李航, 李国杰, 汪可友. 基于深度强化学习的电动汽车实时调度策略[J]. 电力系统自动化, 2020, 44(22): 161-167. Li Hang, Li Guojie, Wang Keyou. Real-time dispatch strategy for electric vehicles based on deep reinforce-ment learning[J]. Automation of Electric Power Systems, 2020, 44(22): 161-167.
[27] 王晓梅, 卢芳, 卢京祥, 等. 含分布式光伏和电动汽车的主动配电网电压一致性协同控制[J]. 电测与仪表, 2020, 57(11): 101-107, 134. Wang Xiaomei, Lu Fang, Lu Jingxiang, et al. Consensus-based cooperative voltage control of distributed photovoltaic and electric vehicles in active distribution network[J]. Electrical Measurement & Instrumentation, 2020, 57(11): 101-107, 134.
Abstract With the widespread adoption of electric vehicles (EVs) and the large-scale integration of renewable energy sources such as wind and solar power into the grid, fully leveraging the potential of EV demand response to address issues such as power fluctuations and poor load stability in the grid is of significant importance. Recently, various control methods for EVs participating in grid demand response have been proposed. However, these existing methods still face several challenges: First, the current methods insufficiently consider the coordination between the autonomous demand response of flexible-contract EVs and the aggregated demand response of fixed-contract EVs. Second, existing optimization methods for aggregated demand response strategies overlook the issue of information asymmetry resulting from differentiated characteristics among entities, leading to slow convergence in aggregate control and higher aggregate output costs. Third, existing optimization methods for autonomous demand response strategies utilize fixed discount rates to guide the learning of agents in flexible EVs but fail to achieve a dynamic balance between immediate rewards and long-term rewards, resulting in poor learning effectiveness. To address these challenges, this paper proposed a multi-type EV collaborative demand response method based on asymmetric consensus learning.
Firstly, EVs participating in demand response are divided into flexible-contract EVs and fixed-contract EVs, and a scheduling architecture for multi-type EV collaborative demand response is proposed. Within this framework, the collaboration between flexible-contract EVs and fixed-contract EVs in demand response is manifested in two aspects: 1) After flexible-contract EVs autonomously participate in demand response, fixed-contract EVs aggregate demand response based on their autonomous response shortfall, enabling both to jointly meet grid requirements; 2) Following the aggregation of demand response by fixed-contract EVs, the aggregated response results are fed back to flexible-contract EVs, prompting them to dynamically adjust their autonomous demand response strategies based on the feedback information.
Subsequently, a multi-type EV collaborative demand response strategy based on asymmetric consensus learning is proposed. Specifically, flexible-contract EVs aim to maximize the weighted difference of their income, mileage guarantee, and load curve variance of the power grid. They make autonomous demand response decisions and participate in grid demand response utilizing flexible reinforcement learning. Flexible-contract EVs can dynamically adjust discount rates based on autonomous demand response results, achieving a dynamic balance between immediate rewards and long-term rewards, effectively enhancing EV demand response profits, reducing mileage guarantee costs, and decreasing grid load volatility. Additionally, by fully considering differentiated information such as aggregator contracted capacity, fixed-contract EV quantity, and number of contracts, quantifying the confidence level of aggregator state information, and calculating asymmetric consensus communication weights among aggregators, the asymmetry optimization of fixed-contract EV aggregated demand response strategies is achieved. This enhances convergence speed in EV aggregation control and reduces aggregate output costs.The proposed asymmetric consensus learning algorithm is capable of efficiently handling high-dimensional complex nonlinear relationships, with strong autonomous learning and generalization capabilities.
keywords:Multi-type electric vehicles, flexible reinforcement learning, asymmetric consensus, optimization collaborative, demand response
Finally, the effectiveness and rationality of the proposed multi-type EV collaborative demand response method are verified through simulation examples. Simulation results demonstrate that the proposed method can increase autonomous demand response rewards for flexible-contract EVs by 34.42% and improve reward convergence speed by 27.96%. It also enhances fixed-contract EV aggregator incremental cost convergence speed by 36.36%, significantly improving peak shaving and load balancing in the grid while effectively ensuring user comfort. Future research will further explore the impact of real-time pricing incentives on optimizing multi-type EV collaborative demand response.
DOI: 10.19595/j.cnki.1000-6753.tces.240578
中图分类号:TM73
国家电网有限公司总部科技项目(52094021N010(5400-202199534A-0-5-ZN))和中国南方电网有限责任公司科技项目(1500002023030103JL00320)资助。
收稿日期 2024-04-12
改稿日期 2024-05-06
潘 超 男,1998年生,博士研究生,研究方向为智能电网分布式资源调控及物联网技术。E-mail:chao_pan@ncepu.edu.cn
周振宇 男,1983年生,教授,博士生导师,研究方向为新型电力系统与虚拟电厂、无线通信网络与新技术、能源互联网信息通信技术等。E-mail:zhenyu_zhou@ncepu.edu.cn(通信作者)
(编辑 郭丽军)