基于业务性能偏差感知的电力通信网路由优化策略

陈亚鹏 杨 阳 舒乙凌 谢文正 周振宇

(新能源电力系统全国重点实验室(华北电力大学) 北京 102206)

摘要 针对新兴电力业务对时延、可靠性的严苛要求,提出一种基于业务性能偏差感知的电力通信网路由优化策略。在建立“能量-信息”耦合网络模型基础上,量化分析电力业务转发时延与可靠性约束,设置与能量层、信息层重要度相关的业务效用最大化问题,利用虚拟队列积压感知多跳长时路由优化中的业务性能偏差,基于引入记忆空间的改进width=47.8,height=14.75算法,实现信息不确定场景下的电力通信网路由优化。仿真结果表明,所提算法可有效提升业务效用,在转发时延、丢包率方面性能更优,且可通过权重系数调节适应不同场景的差异化业务需求。

关键词:电力通信网 “能量-信息”耦合网络 路由优化 业务性能偏差感知 强化学习

0 引言

自“碳达峰、碳中和”重大战略提出以来,能源电力行业积极响应,持续推进以新能源为主体的新型电力系统建设[1-2]。光伏、风电等新能源的广泛接入为用户侧可控消纳能力提升带来挑战,也对电力通信网的业务承载能力提出更高要求,传统以能量传递为主要目的的电网正向“能量-信息”耦合方向发展[3-4]。随着源网荷储协同互动等新兴电力业务的发展,国网公司总部断面流量激增,现有电力通信网带宽扩容至少5倍方可满足未来业务发展需求,此外源网荷储协同互动需在ms级到min级多个时间尺度实现电网能量调度响应,由此衍生的网络带宽瓶颈与业务性能恶化问题日益突出[5-6]。为有效支撑新型电力系统多能互补协调,电力通信网业务路由优化已成为行业研究热点。

目前,国内外学者已经针对电力通信网路由优化开展了大量研究。文献[7]考虑电力通信相依网络的负载均衡路由问题,并开发了一种低复杂度的路由搜索方法,通过路由优化降低网络整体运行风险。文献[8]基于软件定义网络(Software Defined Network, SDN)架构和改进蚁群算法,提出了一种电力通信网络路由策略,解决传统网络路由效率低、成本开销大的问题。但上述研究多从网络整体性能提升角度开展,未能充分结合电力业务差异化性能需求进行路由优化决策。为此,文献[9]在多类型电力业务可靠性分析基础上建立链路失效模型,充分考虑了不同业务对网络需求的多样性,通过多级电力业务路由规划降低网络拥塞率。文献[10]面向电力通信业务服务质量和可靠性保障问题,利用最小路径选择度方法实现电力通信网路由优化,保障业务丢包率、传输时延和链路带宽占用率等性能需求。然而,目前研究仍未考虑电网节点重要度,随着电力通信网节点与业务流量规模的持续增长[11],上述研究也越发难以适应网络环境的时变性与业务的动态性。

为解决信息不确定性场景下“利用”(依据历史经验选择获得平均奖赏最大的决策)与“探索”(尝试可能在未来获得更大奖赏的决策)之间的权衡问题,基于强化学习的路由优化研究日益广泛,其中Q-learning算法与SARSA(state-action-reward-state-action)算法在逐跳路由优化问题中的应用最为普遍[12-13]。考虑到电力通信网拓扑的复杂性,Q-learning作为一种离线学习算法容易出现陷入环状网络或热点路由的现象,导致传输或排队时延激增[14]。而基于在线学习的SARSA算法通过更为稳健的策略调整,可有效地避免业务性能急剧恶化的现象产生[15]。但上述算法均为单步更新算法,无法在持续的路由优化过程中根据当前业务性能偏差及时调整策略,因而收敛性较差。此外,目前研究大多未对多业务选择同一路由导致的排队时延进行建模,且忽略了业务可靠性等长时性能保障问题,难以适应新兴电力业务的“确定性服务”需求。

针对上述问题,本文提出基于业务性能偏差感知的电力通信网路由优化策略。首先,建立“能量-信息”耦合网络模型,在量化分析电力业务转发时延、可靠性约束基础上,通过虚拟队列积压感知业务性能偏差,基于引入记忆空间的width=46.6,height=14.75算法适应网络与业务信息的动态变化,并通过仿真验证了所提算法的性能提升效果。

1 “能量-信息”耦合网络模型

传统电力系统中,电网与电力通信网的耦合主要体现在结构上,即电力通信网节点通常部署于电网节点内部,电力通信网线路沿输电线路敷设,且通信设备有赖于电网供能,进而承担对电网的遥测、遥信、遥控、遥调功能。随着可再生能源的广泛接入,新型电力系统不确定性增强,为提升新能源消纳能力,新兴的源网荷储协同互动业务迅猛发展,电网对于电力通信网的业务数据承载能力提出更高要求。新型电力系统背景下“信息-能量”耦合网络模型如图1所示,包含电网、通信网、业务主站三层。

width=227.25,height=234

图1 “信息-能量”耦合网络模型

Fig.1 "Energy-information" coupling network model

1)电网。包含各类源网荷储站点,其中大中型集中式光伏电站、风电场、储能站等采用集中并网模式参与电网协同互动,此类站点通常离用电侧较远、并网电压等级高,电能一般需要经过输变电线路进行远距离传输;大中型工业、商业负荷由于自身可调功率大,可通过10 kV配电网直接参与电网协同互动,发挥“削峰填谷,平抑波动”的作用。而各类装机容量、可调功率、储能容量较小的分布式源荷储站点通常位于用户侧,接入配电网电压等级低,此类设施先通过分布式资源代理进行聚合,然后共同参与电网协同互动。

2)通信网。区域的源网荷储协同互动离不开电力通信网提供业务传输通道,目前我国已建成完善的电力通信网传输体系,在骨干层主要采用光通信制式,以各等级变配电站为锚点,沿输电线路进行光纤敷设。大中型的源网荷储站点一般直接通过光纤接入电力通信网进行数据传输,而各类分布式源荷储站点具有地理位置分散、隶属关系复杂等特点,一般通过本地通信网首先将数据汇聚给聚合代理,再由聚合代理统一接入电力通信网[16]

3)业务主站。存在部分通信节点不依赖电网节点独立存在,并对汇聚的业务数据进行进一步分析处理,从而构成业务主站层,如省调、地调、数据采集与监视控制(Supervisory Control and Data Acquisition, SCADA)系统、配电管理系统(Distribution Management System, DMS)等。来源于各源节点的业务数据经过多跳转发统一汇入电网业务主站,为调峰调频、需求响应等业务提供数据支撑,并实现电网的经济调度与运行控制。

综上所述,新型电力系统中能量传输网络与信息传输网络呈现紧密耦合的特征,新兴的源网荷储协同互动业务导致电力系统内部信息交互频繁,作为支撑电力系统安全稳定运行的三大支柱之一,“信息”可靠传递对于“能量”合理配置的支撑作用也更为显著。

2 系统模型

2.1 电力通信网网络模型

电力通信网网络模型如图2所示,基于SDN技术[8,10-11],本文采用数据平面与控制平面分离的电力通信网控制架构,数据平面负责电力业务数据转发,控制平面的电力通信管理系统(Telecom Management System, TMS)则通过对网络状态的实时感知下发路由控制策略。电力通信网拓扑结构用width=44.55,height=17.15表示,其中集合width=80.55,height=17.15表示各电力通信网节点,width=127.7,height=17.15表示各节点之间的通信链路。定义集合width=105.45,height=17.15表示业务数据源节点,且width=35.15,height=12width=10.3,height=14.55则表示电网业务主站,是电力业务数据传输的目的节点。此外,本文采用离散时隙模型,整体的优化周期被划分为width=10.3,height=10.3个等长的时隙,表示为width=74.55,height=14.55,每个时隙长度为width=10.3,height=14.55,每个时隙初,源节点生成电力业务数据包,并经过多跳转发被传输至电网业务主站。

width=222.75,height=123.75

图2 电力通信网网络模型

Fig.2 Network model of electric power communication

2.2 电力业务传输模型

width=6.85,height=10.3个时隙时,定义来自不同源节点的电力业务数据包集合为width=93.45,height=18.85,数据包width=12.85,height=16.3大小为width=14.55,height=16.3,自源节点开始依次经过的节点为width=12.85,height=16.3,并构成width=14.55,height=16.3。当数据包width=12.85,height=16.3位于路由节点width=12.85,height=16.3且选定的下一跳路由节点为width=10.3,height=14.55width=30,height=16.3)时,令width=85.7,height=18.85,则width=14.55,height=16.3中元素满足width=30,height=16.3,width=31.7,height=16.3,width=69.45,height=18.85

2.3 电力业务转发时延分析

电力业务数据包width=12.85,height=16.3到达路由节点width=12.85,height=16.3的时刻为width=26.55,height=18.85。电力通信网中业务转发时延包含在路由节点处的传输时延、排队时延与在通信链路上的传播时延三部分,由于光纤中数字信号传播速率为光速,因而传播时延被忽略[17]

定义电力通信网支持的数据传输速率为width=10.3,height=10.3,数据包width=12.85,height=16.3在任一路由节点的传输时延width=36.85,height=18.85

width=59.15,height=27.45(1)

受制于每个路由节点有限的数据处理能力,根据先入先出(First In First Out, FIFO)原则,当该节点上前一个数据包未完成转发时,之后到达的数据包在缓冲区中排队等待,直至之前的数据包都转发完成才开始传输。设置指示变量width=68.55,height=18.85,其中width=48.85,height=18.85表示在第width=6.85,height=10.3个时隙时,节点width=10.3,height=14.55转发的第width=10.3,height=16.3width=44.55,height=16.3)个数据包与传输至路由节点width=12.85,height=16.3处的数据包width=12.85,height=16.3是同一个,否则width=50.55,height=18.85。本文规定单个路由节点一次至多只能转发一个数据包,且单个数据包在同一时刻至多只在一个路由节点上被转发,即

width=90.85,height=25.7(2)

width=84,height=25.7 (3)

式中,N+为正整数集合。

对于路由节点width=10.3,height=14.55转发的第width=10.3,height=16.3个数据包而言,其排队时延width=33.45,height=18.85

width=165.45,height=53.15 (4)

因此,电力业务数据包width=12.85,height=16.3在路由节点width=12.85,height=16.3处的排队时延width=36,height=18.85

width=138.85,height=25.7 (5)

综上所述,电力业务数据包width=12.85,height=16.3的下一跳路由节点到达时刻width=36,height=18.85

width=144.85,height=18.85 (6)

2.4 电力业务可靠性约束模型

考虑到电力通信网拓扑中有成环的情况,为避免业务数据的过度转发,规定单个时隙内数据包转发总跳数约束为width=21.45,height=16.3,因此width=50.55,height=18.85

此外,不同电力业务对于端到端时延往往有严苛要求,若不能满足,则会影响电力系统的实时监测与同步控制,危及电网安全稳定运行。为确保业务数据包的及时到达,规定单个时隙内数据包转发总时延约束为width=18.85,height=16.3width=39.45,height=16.3),因此width=54.85,height=18.85

当电力业务数据包到达某一路由节点时,若此时的转发总跳数约束或时延约束无法被满足,则该数据包在当前路由节点被丢弃,本次转发视为失败。判断数据包width=12.85,height=16.3在某节点是否发生丢包的指示变量width=29.15,height=18.85

width=183.45,height=21.45 (7)

式中,width=16.3,height=14.55为指示性函数,当括号中事件为真时,width=25.7,height=14.55,否则width=26.55,height=14.55。因此,width=38.55,height=18.85表示电力业务数据包width=12.85,height=16.3在路由节点width=12.85,height=16.3处被丢弃,否则width=39.45,height=18.85。进一步,电力业务数据转发的长时丢包率约束为

width=89.15,height=38.55 (8)

式中,width=18.85,height=16.3为长时丢包率阈值。

2.5 电力通信网路由优化问题模型

本文旨在通过电力业务数据包转发路由优化提升电力通信网对于业务数据的可靠承载能力,因而将业务效用函数width=30,height=18.85建模为考虑节点重要度与业务优先级的转发成功业务数据量,即

width=114.85,height=21.45 (9)

式中,width=12.85,height=14.55为电力业务数据包源节点在能量层的重要度,与该节点装机容量、并网电压等级等因素相关,节点对于电力系统运行的影响越大,则节点重要度越大[18]width=14.55,height=14.55为数据包携带业务信息的优先级,如源荷储节点并离网切换等保护控制类业务往往比运行状态监测等采集类业务的优先级更高[19]。在实际的路由优化中,应当优先保障来源高节点重要度的高优先级业务传输,则本文优化问题width=14.55,height=10.3最终建模为

width=170.55,height=248.55 (10)

式中,width=12.85,height=14.55width=14.55,height=14.55表示路由节点的选择范围约束;width=12.85,height=14.55width=14.55,height=14.55width=12.85,height=14.55表示节点转发次序与数据包对应关系指示变量的取值约束;width=14.55,height=14.55width=14.55,height=14.55width=12.85,height=14.55表示电力业务数据包转发的可靠性约束。

3 基于业务性能偏差感知的电力通信网路由优化策略

3.1 问题重构

优化问题P1中存在多跳约束width=14.55,height=14.55width=14.55,height=14.55及长时约束width=12.85,height=14.55,因为有关未来路由节点的信息难以预知,上述约束在单跳的路由优化时难以被综合考虑。本文通过引入虚拟队列的概念[20],将长时多跳的不确定性优化问题重构为一系列短时的确定性优化问题。多跳约束与长时约束相对应的虚拟队列定义为

width=198.85,height=35.15(11)

width=129.45,height=36.85 (12)

式中,width=60,height=17.15且虚拟队列初始积压为0,即width=42,height=18.85width=29.15,height=16.3width=31.7,height=18.85为当前路由节点上时延与跳数相较于多跳约束之间的偏差值;width=12.85,height=16.3为当前时隙丢包率相较于长时丢包率约束之间的偏差值。通过在单个时隙的单跳路由优化,尽可能使虚拟队列积压值更小,从而维持虚拟队列的平均速率稳定,可在未来有效保障多跳约束和长时约束得以满足[21-22]

重构后的新优化问题width=14.55,height=10.3

width=105.45,height=46.3 (13)

width=218.55,height=18.85 (14)

式中,width=16.3,height=16.3width=14.55,height=16.3为非负的权重系数,用于实现虚拟队列积压最小化与优化目标最大化之前的权衡。由式(13)、式(14)可以看出,当前虚拟队列积压被重构为转发时延与丢包率的权重,若当前时刻的转发时延与丢包率偏离阈值过多,对应的虚拟队列积压变大,则相应的优化目标在总体优化目标中的比重变大,后续路由优化中,便会倾向于优先保障该性能的提升。同时,通过优化转发时延与可靠性,可以降低虚拟队列积压,进而保障多跳与长时约束的满足。

3.2 算法设计

由式(4)可以看出,不同业务转发路由决策之间存在耦合,某个业务数据包转发时延大小不仅与自身包大小相关,还与所经过路由节点的其他数据包相关。考虑时变网络与业务信息带来的不确定性,本文采用强化学习算法实现网络中多电力业务数据包路由转发策略的自主学习优化,主要包含的关键要素为智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖赏(Reward),具体介绍如下。

1)智能体:本文指SDN控制平面。

2)环境:本文指电力通信网。

3)状态:本文指电力业务数据包width=12.85,height=16.3所处的路由节点,状态空间width=12.85,height=14.55定义为

width=91.7,height=23.15 (15)

4)动作:本文指电力业务数据包width=12.85,height=16.3在当前状态下选择的下一跳路由节点,动作空间width=12.85,height=14.55定义为

width=162,height=23.15 (16)

5)奖赏:本文指电力业务数据包width=12.85,height=16.3在当前状态下执行不同动作所获得的效用值,即width=30,height=18.85

不同要素交互关系如图3所示,即智能体根据当前虚拟队列积压与历史决策信息下发路由决策到电力通信网中,执行该决策后获得性能参数,并反馈更新后的状态与奖赏给智能体。

width=213,height=105.75

图3 强化学习中要素交互关系

Fig.3 Interaction of elements in reinforcement learning

传统Q-learning和SARSA算法只更新上一步状态和动作对应的width=10.3,height=14.55表,而实际的路由优化中,最终性能与之前的每一步均有关,且早期策略性能往往较差,导致算法收敛性不足。针对此,本文在奖赏值方面设置虚拟队列降低后续优化过程中时延与丢包率相较于约束的偏差值。另一方面,采用引入记忆空间的width=50.55,height=17.15算法进行路由选择优化,该算法通过设置实现指数型衰减的遗忘系数width=9.45,height=12.85width=36,height=14.55)模拟人的记忆过程,随着持续的学习,早期失败的学习策略会被逐渐“遗忘”,以提升算法收敛性,算法执行流程见表1,具体步骤介绍如下。

表1 基于业务性能偏差感知的路由优化策略

Tab.1 Routing optimization strategy based on service performance deviation awareness

1)初始化:令、,2) for 3)令,4) for 5) 令、,基于策略初始化动作,6) while ,使且7) 执行动作8) 观察奖赏及下一状态9) 状态下,基于策略选取动作10) 计算学习偏差,更新11) 更新、12) 令、13) 更新14) end while15) 更新16) end for17) end for

1)在初始化阶段,对于所有的width=33.45,height=16.3,将width=10.3,height=14.55表中所有元素width=44.55,height=17.15初始化为0,令width=25.7,height=16.3

2)设置记忆周期为width=12,height=12,每个记忆周期开始时,对于所有的width=33.45,height=16.3,将记忆空间中所有元素width=42.85,height=17.15中初始化为0。

3)每个时隙开始时,对于所有的width=33.45,height=16.3,初始化当前状态为源节点,基于width=38.55,height=14.55策略初始化动作,令width=42,height=18.85

4)当存在数据包仍未到达目的节点且未被丢弃时,即满足width=44.55,height=18.85width=44.55,height=18.85时,执行当前动作width=27.45,height=18.85,观察奖赏width=38.55,height=18.85以及下一状态width=36,height=18.85

5)状态width=36,height=18.85下,基于width=38.55,height=14.55策略选取动作width=38.55,height=18.85,计算当前的学习偏差width=9.45,height=12.85,即

width=230.55,height=21.45 (17)

式中,width=8.55,height=12为学习折扣因子。令width=63.45,height=16.3width=10.3,height=9.45width=63.45,height=16.3width=10.3,height=10.3width=6.85,height=10.3,进一步更新width=10.3,height=14.55表,即

width=146.55,height=17.15 (18)

式中,width=9.45,height=10.3为学习速率。然后更新记忆空间,即

width=96,height=17.15 (19)

更新当前状态及动作width=26.55,height=18.85width=10.3,height=9.45width=36,height=18.85width=27.45,height=18.85width=10.3,height=9.45width=36.85,height=18.85,根据式(11)更新width=31.7,height=18.85

6)根据式(12)更新width=12.85,height=16.3

3.3 算法复杂度分析

每个时隙内算法的时间复杂度由步骤3)~步骤6)决定。步骤3)中状态与动作初始化的时间复杂度为width=33.45,height=21.45,步骤4)中每个数据包进行单次动作选择时需要对width=10.3,height=14.55表中的值进行降序排列,本文采用快速排序法,其时间复杂度为width=72,height=18.85,其中width=19.7,height=14.55表示可执行的动作数量最大值,每个时隙最多需执行width=38.55,height=18.85次动作选择。步骤5)和步骤6)中参数运算与更新的时间复杂度与数据包数量及跳数呈正相关关系,即width=54,height=21.45

4 仿真分析

4.1 仿真参数设置

网络参数方面,本文仿真拓扑如图4所示,参考IEEE 30节点电力测试系统搭建,电网节点重要度参考文献[4]进行设定,节点间光纤通信为采用第二级同步传输模块的同步数字体系(Synchronous Digital Hierarchy, SDH)制式,支持传输速率为622.080 Mbit/s,仿真软件为Matlab。

width=203.25,height=138.75

图4 仿真拓扑

Fig.4 Simulation topology

业务参数方面,本文选取三种典型源网荷储协同互动业务以及一种常规业务,业务需求、重要度等级参考文献[16, 23]等进行设定,业务数据采集与上报周期为1 s,业务性能需求严苛程度自高到低依次为投切管理、需求响应、充放电管理、运行状态监测,业务流量大小按照单节点800~1 000个接入终端/电力用户进行估算(不考虑站内通信)[16]

算法参数方面,权重系数主要为实现虚拟队列积压最小化与优化目标最大化之前的权衡,通过在本文算例下的验证进行选定,机器学习的相关参数参考文献[12]设定。对比算法1[13]与对比算法2[15]分别采用Q-learning和SARSA算法优化路由决策,且均未考虑长时约束与多跳约束。本文主要仿真参数见表2。

表2 仿真参数

Tab.2 Simulation parameters

参数数值参数数值 1 000100 1 s4, 3, 2, 1 0.510 6100 /Mbit10.96~13.70.8 /(Mbit/s)622.0800.99 /s0.1, 0.12, 0.12, 0.150.05, 0.08, 0.12, 0.12

4.2 仿真结果分析

不同算法平均业务效用随时隙变化情况对比如图5所示。由图5可见,所提算法收敛速度更快,且可收敛到的业务效用更高,截至第1 000个时隙,本文所提算法相较于对比算法1和对比算法2可提升平均业务效用21.01%、15.92%。因为所提算法通过引入记忆空间减小早期不稳定学习对后续优化的影响,且在进行优化时考虑长时与多跳约束,从而降低丢包事件对业务效用的影响。对比算法1和对比算法2直接运用强化学习算法优化路由决策,对历史决策经验依赖性更强,且无法在优化时将当前业务性能与长时约束和多跳约束的偏差加以考虑,因而性能更差。此外,由于SARSA算法为一种在线学习策略,对比算法2路由决策更为稳健,有利于降低丢包事件发生,因此其性能早期相较于对比算法1较差,但后期更优。

width=189,height=135.75

图5 平均业务效用随时隙变化情况对比

Fig.5 Comparison of average service utility versus time slots

不同算法虚拟队列积压情况对比如图6所示。由图6可见,由于学习早期的性能较差,不同算法的虚拟队列积压均存在一些偏离正常范围的离群点,相较于对比算法1和对比算法2,本文所提算法可降低多跳约束虚拟队列积压69.77%、55.81%,降低长时约束虚拟队列积压69.00%、53.37%。因为本文所提算法通过时隙间积压的演进实现业务性能偏差感知,动态调整路由优化策略,从而减少丢包现象发生。而对比算法均未能在优化过程中考虑长时约束和多跳约束,因此更容易发生业务数据处理超时或业务数据转发跳数过高的情况,导致时延和丢包率增加。

width=204,height=149.25

图6 虚拟队列积压情况对比

Fig.6 Comparison of virtual queue backlog

不同算法平均转发时延与丢包率随时隙变化情况对比如图7和图8所示,平均转发时延通过单时隙内所有数据包业务效用求均值获得,丢包率为截至当前时隙丢包数与数据包总数的比值。可见相较于对比算法1和对比算法2,本文所提算法平均转发时延和丢包率性能更好,截至第1 000个时隙,所提算法相较于对比算法1和对比算法2可降低平均转发时延11.43%、7.14%,降低丢包率35.32%、19.66%。结合图6可见,前期较差性能对应那些偏离正常范围的离群点,逐步收敛后的结果与图6中箱线图的箱体相对应,从而也说明了利用虚拟队列积压实现业务性能偏差感知的可行性,以及对业务性能的增益效果。此外,所提算法可以有效保障电力业务数据包在网络中的转发性能,避免因业务信息丢失影响电网的安全稳定运行,且满足电网公司通常要求调度自动化系统业务时延在100 ms级别,运行信息类业务时延在几百ms至s级的要求。

width=189,height=138.75

图7 平均转发时延随时隙变化情况对比

Fig.7 Comparison of average forwarding delay versus time slots

width=189.75,height=140.25

图8 丢包率随时隙变化情况对比

Fig.8 Comparison of packet loss rate versus time slots

所提算法不同阶段业务转发性能变化情况如图9所示。由图9可见早期阶段性能较差,但随着学习的经验的累积,平均转发时延和丢包率均降低,由于丢包率的时隙间累积效应,其下降效果更为明显,相较于第1~200个时隙,所提算法第801~ 1 000个时隙时的平均转发时延和丢包率分别下降8.26%、91.15%。说明所提算法对于时变环境信息以及业务信息的学习和适应能力更强,稳定后可实现的性能更优。在实际的电力通信网路由规划中,还可以通过引入路由倒换、丢包重传等冗余保护机制进一步提升可靠性,在本文算法基础上,若在每次丢包后允许一次路由重选,通过仿真验证可得稳定后的丢包率仅为0.006 8%,可达到一般电力业务99.99%以上的可靠性要求。

width=198,height=153

图9 不同阶段业务转发性能变化情况对比

Fig.9 Comparison of service forwarding performance at different stages

权重系数对业务转发性能的影响如图10所示。由图10可见,随着权重系数变大,丢包率持续降低,平均业务效用先降低后增加。因为当权重系数增大时,与可靠性相关的优化目标在总体优化中的比重增加,节点重要度和业务优先级的影响被逐渐削弱,此时会以牺牲高优先级业务部分性能为代价提升其余业务可靠性,因此平均业务效用降低;当权重系数持续增加时,不同业务的可靠性均能够获得很好的保障,因此平均业务效用有所提升。此外,当width=36,height=16.3width=39.45,height=16.3后,权重系数对丢包率降低和业务效用提升的效果均不再明显,因此可结合电力系统实际运行情况,通过权重系数调节实现业务效用与可靠性之间的权衡,如当电力系统运行不稳定时,可降低权重系数从而优先确保来源于高重要度节点的高优先级业务转发性能。

width=194.25,height=153

图10 权重系数对业务转发性能的影响

Fig.10 Impact of weight coefficient on service forwarding performance

节点重要度和业务优先级对业务转发性能的影响见表3,数值结果取第1 000个时隙的输出。由表3可见,数据包源节点重要度越高、业务信息优先级越高,平均转发时延越低和丢包率越低。因为本文所提算法的动作选择中,优先转发来源于高节点重要度的高优先级电力业务会获得更大的奖赏,更新后的值也更大,说明所提算法在进行路由决策时可实现对于节点重要度和业务优先级的感知,优先确保来自对于电网运行更重要节点的高优先级业务的转发性能得到满足。

表3 节点重要度和业务优先级对业务转发性能的影响

Tab.3 Impact of node importance and service priority on service forwarding performance

节点编号业务名称平均转发时延/ms丢包率(%) 节点8()投切管理91.234.21 需求响应96.625.47 充放电管理100.676.03 运行状态监测108.526.84 节点23()投切管理90.513.71 需求响应93.464.53 充放电管理97.055.62 运行状态监测99.486.24

5 结论

面向新型电力系统背景下电力通信网的业务数据可靠承载能力提升需求,提出基于业务性能偏差感知的电力通信网路由优化策略,保障多类型电力业务的时延与可靠性需求。仿真结果表明,与基于Q-Learning和SARSA的传统路由方法相比,所提算法可提升业务效用21.01%、15.92%,降低转发时延11.43%、7.14%,减小丢包率35.32%、19.66%,且可通过权重系数调节适应不同场景的差异化业务需求。

随着电力通信网拓扑结构和业务场景的复杂化,未来研究中,将进一步考虑大规模业务数据并发接入带来的资源竞争冲突,结合神经网络算法进一步提升业务性能。

参考文献

[1] 陈亚鹏, 曲睿, 贾璐瑞, 等. 面向区域能量调控的信息时效性保障与数据价值提升策略[J/OL]. 中国电机工程学报, 2023: 1-13. https://doi.org/10.13334/ j.0258-8013. pcsee.222841[2023-05-13]. Chen Yapeng, Qu Rui, Jia Lurui, et al. Information timeliness guarantee and data value enhancement strategy for regional energy regulation[J/OL]. Proceedings of the CSEE, 2023: 1-13. https://doi.org/ 10.13334/j.0258-8013.pcsee.222841 [2023-05-13].

[2] Zhuo Zhenyu, Zhang Ning, Hou Qingchun, et al. Backcasting technical and policy targets for constructing low-carbon power systems[J]. IEEE Transactions on Power Systems, 2022, 37(6): 4896-4911.

[3] 李辉, 吴海, 胡国, 等. 基于GOOSE通信技术的直流配电网分布式区域保护方法[J]. 电气技术, 2022, 23(4): 70-75, 81. Li Hui, Wu Hai, Hu Guo, et al. Distributed area protection method for direct current distribution network based on GOOSE communication technology[J]. Electrical Engineering, 2022, 23(4): 70-75, 81.

[4] 李炅菊, 黄宏光, 舒勤. 相依网络理论下电力通信网节点重要度评价[J]. 电力系统保护与控制, 2019, 47(11): 143-150. Li Guiju, Huang Hongguang, Shu Qin. Evaluation method for node importance in power telecommunication network based on interdependent network theory[J]. Power System Protection and Control, 2019, 47(11): 143-150.

[5] 刘林, 祁兵, 李彬, 等. 面向电力物联网新业务的电力通信网需求及发展趋势[J]. 电网技术, 2020, 44(8): 3114-3130. Liu Lin, Qi Bing, Li Bin, et al. Requirements and developing trends of electric power communication network for new services in electric Internet of Things[J]. Power System Technology, 2020, 44(8): 3114-3130.

[6] 朱晓荣, 司羽. 考虑物理—信息—交通网耦合的配电网多时段动态供电恢复策略[J]. 电工技术学报, 2023, 38(12): 3306-3320. Zhu Xiaorong, Si Yu. Multi-period dynamic power supply restoration strategy considering physical-cyber-traffic network coupling[J]. Transactions of China Electrotechnical Society, 2023, 38(12): 3306-3320.

[7] Kong Pengyong. Routing in communication networks with interdependent power grid[J]. IEEE/ACM Transactions on Networking, 2020, 28(4): 1899-1911.

[8] 尚立, 陈明, 杨巍, 等. 基于改进蚁群算法的电力通信网络路由策略研究[J]. 电力系统保护与控制, 2021, 49(22): 130-136. Shang Li, Chen Ming, Yang Wei, et al. Electric power communication network routing strategy based on an improved ant colony algorithm[J]. Power System Protection and Control, 2021, 49(22): 130-136.

[9] 杨淑娜, 许嘉丽, 杨鸿珍, 等. 基于链路失效模型的多级电力业务路由规划[J]. 电子与信息学报, 2022, 44(11): 3788-3795. Yang Shuna, Xu Jiali, Yang Hongzhen, et al. Availability-oriented routing algorithm for planning multi-level power service based on link-failure model[J]. Journal of Electronics & Information Technology, 2022, 44(11): 3788-3795.

[10] 张磊, 纪春华, 王旭蕊, 等. 基于最小路径选择度的电力通信网络路由优化策略研究[J]. 电力系统保护与控制, 2022, 50(1): 141-147. Zhang Lei, Ji Chunhua, Wang Xurui, et al. A routing optimization strategy for an electric power communication network based on the minimum path selectivity degree[J]. Power System Protection and Control, 2022, 50(1): 141-147.

[11] Zhou Zhenyu, Chen Xinyi, Liao Haijun, et al. Collaborative learning-based network resource scheduling and route management for multi-mode green IoT[J]. IEEE Transactions on Green Communications and Networking, 2023, 7(2): 928-939.

[12] Sutton R S, Barto A G. Reinforcement learning: an introduction[M]. 2nd ed. Cambridge : MIT Press,1998.

[13] Xu Changqiao, Zhang Tao, Kuang Xiaohui, et al. Context-aware adaptive route mutation scheme: a reinforcement learning approach[J]. IEEE Internet of Things Journal, 2021, 8(17): 13528-13541.

[14] 周鹏. 基于强化学习的SDN路由优化研究[D]. 重庆: 重庆邮电大学, 2020.

[15] Yang Huifeng, Wei Yong, Li Jianqi, et al. SARSA-based CoAP mode and route selection joint optimization in power underground pipe gallery[C]//2021 IEEE 26th International Workshop on Computer Aided Modeling and Design of Communication Links and Networks (CAMAD), Porto, Portugal, 2021: 1-6.

[16] 汪莞乔, 苏剑, 潘娟, 等. 虚拟电厂通信网络架构及关键技术研究展望[J]. 电力系统自动化, 2022, 46(18): 15-25. Wang Wanqiao, Su Jian, Pan Juan, et al. Prospect of research on communication network architecture and key technologies for virtual power plant[J]. Automation of Electric Power Systems, 2022, 46(18): 15-25.

[17] Zhang Chengliang, Liu Xianghang, Li Junjie, et al. Optical layer impairments and their mitigation in C+L+S+E+O multi-band optical networks with G.652 and loss-minimized G.654 fibers[J]. Journal of Lightwave Technology, 2022, 40: 3415-3424.

[18] 刘文霞, 富梦迪, 李涵深, 等. 计及信息失效的柔性配电系统集中-分散协调控制策略优化[J]. 电工技术学报, 2021, 36(22): 4749-4759.Liu Wenxia, Fu Mengdi, Li Hanshen, et al. Centralized-decentralized control strategies optimization for flexible distribution network considering cyber failures[J]. Transactions of China Electrotechnical Society, 2021, 36(22): 4749-4759.

[19] 陈亚鹏, 刘朋矩, 周振宇, 等. 面向业务可靠承载的电力弹性光网络自主协同决策[J]. 电工技术学报, 2023, 38(21): 5821-5831, 5877. Chen Yapeng, Liu Pengju, Zhou Zhenyu, et al. Autonomous collaborative decision-making method forpower elastic optical network oriented to service reliable bearing[J]. Transactions of China Electrotechnical Society, 2023, 38(21): 5821-5831, 5877.

[20] Neely M J. Stochastic network optimization with application to communication and queueing systems[M]. Cham, Switzerland: Springer, 2010.

[21] Liao Haijun, Zhou Zhenyu, Zhao Xiongwen, et al. Learning-based queue-aware task offloading and resource allocation for space–air–ground-integrated power IoT[J]. IEEE Internet of Things Journal, 2021, 8(7): 5250-5263.

[22] Sun Yuxuan, Zhou Sheng, Xu Jie. EMM: energy-aware mobility management for mobile edge computing in ultra dense networks[J]. IEEE Journal on Selected Areas in Communications, 2017, 35(11): 2637-2646.

[23] 王智慧, 汪洋, 秦璇, 等. 系统保护业务需求分析及通信技术研究[J]. 电力建设, 2017, 38(5): 116-123. Wang Zhihui, Wang Yang, Qin Xuan, et al. Requirement and communication technology of system protection[J]. Electric Power Construction, 2017, 38(5): 116-123.

Service Performance Deviation Awareness-Based Power Communication Network Routing Optimization Strategy

Chen Yapeng Yang Yang Shu Yiling Xie Wenzheng Zhou Zhenyu

(State Key Laboratory of Alternate Electrical Power System with Renewable Energy Sources North China Electric Power University Beijing 102206 China)

Abstract In the context of new power system construction, the traditional power grid with the main purpose of energy transmission is developing towards the trend of "energy-information" coupling network. Meanwhile, the development of emerging power services such as "source-grid-load-storage" collaborative interaction also puts forward higher demands for the service bearing capacity of power communication network. Due to the multi-timescale energy regulation requirements in the new power system, the bottleneck of network bandwidth and deterioration of service performance caused by frequent information exchange are becoming increasingly prominent. In response to these issues, this paper proposes a service performance deviation awareness-based power communication network routing optimization strategy, which utilizes advanced artificial intelligence methods to achieve deterministic service demand guarantee for power services.

Firstly, an "energy-information" coupling network model is established. The emerging "source-grid-load-storage" collaborative interaction service leads to frequent information exchange in the new power system, where power communication network is one of the three pillars supporting the safe and stable operation of the power system. Therefore, the reliable transmission of information plays a more significant role in the rational allocation of energy. Furthermore, considering the current situation of power communication system construction in China, a power communication network model is established based on software defined network architecture, in which the end-to-end forwarding delay of services is analyzed. Due to the complex characteristics of network topology and forwarding conflicts caused by multiple services concurrent access, a multi hop and long-term power service reliability constraint model is given. Then, this paper set the network utility as the amount of successfully forwarded service data related to the grid node importance and service information priority, and proposes an optimization problem to maximize global network utility through routing selection strategy adjustment.

On account of the difficulty in predicting information about future route nodes, the multi hop and long-term power service reliability constraints are unrealizable to guarantee in single hop routing optimization. So virtual queues are introduced to achieve deviation perception between current services performance and the constraints, thereby ensuring the satisfaction of relevant reliability requirements. Taking the uncertainty of time-varying network and service information into consideration, this paper uses reinforcement learning algorithm to realize the autonomous learning optimization of packet routing optimization strategy for multiple power services in the network. Aiming at the problem of insufficient convergence in traditional single hop optimization algorithms, the improved SARSA(l) with memory space is adopted for routing optimization. Along with continuous learning, early failed learning strategies will gradually be forgotten to improve algorithm convergence.

The simulation results show that compared with traditional routing optimization algorithms based on Q-learning and SARSA, the proposed algorithm performs better in terms of forwarding delay and packet loss rate. Specifically, the service utility has been improved by 21.01% and 15.92%, the forwarding delay has been reduced by 11.43% and 7.14%, and the packet loss rate has been reduced by 35.32% and 19.66%. Also, the weight coefficient can be adjusted to adapt to the differentiated service demands of different scenarios.

keywords:Power communication network, "energy-information" coupling network, routing optimization, service performance deviation awareness, reinforcement learning

DOI: 10.19595/j.cnki.1000-6753.tces.230660

中图分类号:TM73

国家电网有限公司总部管理科技资助项目(52094021N010(5400-202199534A-0-5-ZN))。

收稿日期 2023-05-15

改稿日期 2023-07-19

作者简介

陈亚鹏 男,1997年生,博士研究生,研究方向为电力信息物理融合系统、电力通信网资源分配优化等。E-mail:yapeng_chen@ncepu.edu.cn

周振宇 男,1983年生,教授,博士生导师,研究方向为智能电网通信网络与新技术、电力物联网与现代传感技术、能源互联网信息通信技术。E-mail:zhenyu_zhou@ncepu.edu.cn(通信作者)

(编辑 赫 蕾)