基于深度-广度联合剪枝的电力设备局部放电轻量化诊断方法

张 翼 朱永利

(华北电力大学电气与电子工程学院 保定 071003)

摘 要 边缘计算技术使在智能电力设备端开展基于神经网络的就地智能诊断成为可能,但存在电力智能终端资源受限与局部放电诊断模型高资源占用之间的矛盾。为解决此问题,该文提出了基于深度-广度联合剪枝的电力设备局部放电轻量化诊断方法。该方法将MobileNetV2 作为基础模型,在训练中引入可迭代重要度因子,“端到端”地感知并裁剪模型中的冗余模块,实现深度方向的结构压缩;采用几何中值滤波器剪枝(FPGM)进一步去除各卷积层的冗余滤波器,并提出增强型模拟退火搜索算法(ESA)自主求解各层的剪枝比例,循环搜索直至获得最大限度的无损压缩模型。结果表明,该方法可以在数据驱动下自主设计高精度、轻量化、低延迟的局部放电深度诊断模型,相较于现有的深度模型,资源占用大幅降低、推理速度显著提升,为资源受限的电力设备边缘侧部署提供了技术支持。

关键词:局部放电 深度学习 自动化剪枝 轻量化诊断 结构设计

0 引言

局部放电(简称局放)是电力设备绝缘劣化的先兆,同时也是加速劣化的重要原因,威胁着电力设备的安全稳定运行[1-2]。由于电力设备绝缘缺陷的放电机理不尽相同,因此准确地诊断放电类型对于评估绝缘状况具有重要意义。早期研究将BP(back propagation)神经网络[3]、支持向量机[4]等传统机器学习方法引入局放诊断领域,提高了诊断的自动化程度,但此类方法的输入特征量依赖人工设计,存在主观性,可能遗漏某些关键特征,致使诊断正确率受到限制。

深度学习技术能够从大规模数据中自主挖掘数据特征,建立输入与输出间的复杂非线性映射,已成为当前电力设备局放诊断研究的主流[5]。S.Barrios 等[6]和Duan Lian 等[7]采用自编码网络分别实现了放电脉冲时频谱和一维时域序列的特征提取与类型识别,网络层数与各层通道数通过反复实验确定;万晓琪等[8]探究了卷积核尺寸、网络深度、通道数对局放时域序列识别的影响,并取得了优于传统机器学习方法的效果;也有学者利用AlexNet[9]、ResNet[10]和VGG(visual geometry group)[11]等大规模网络进行局放诊断,进一步提升了识别率和泛化表现。然而,上述方法显著增加了计算复杂性、参数量和推理耗时,对部署环境的硬件要求较高,其推广应用受到了限制。

尽管利用云计算强大的计算资源可以完成深度诊断模型的部署,但随着电网监测数据的爆炸式增长,直接将海量数据向云端传送将造成通信拥塞和云计算资源的大量消耗,制约了“云端部署”模式的大规模应用[12-13]。幸运的是,当前边缘计算技术的发展为电力设备的信息采集和就地智能诊断带来了可能,正在成为数字电网建设的发展趋势[14],电力设备端逐渐配置的嵌入式系统和人工智能芯片有望成为深度诊断模型的载体[15]。然而,现阶段的边缘智能终端内存较小、计算能力有限,尚无法适应上述局放深度诊断模型的部署要求,必须研究诊断模型的轻量化问题。

MobileNetV2 是近年来新兴的轻量级深度学习框架,具有低资源占用的特点,在诸多通用数据集中广泛应用[16]。目前,虽然Wang Yanxin 等[17]将MobileNetV2 引入气体绝缘封闭金属开关设备(Gas Insulated Switchgear,GIS)的局放诊断中,在一定程度上降低了模型规模,但缺乏针对边缘侧部署的进一步优化与探索。通常,绝大多数已训练的神经网络是过参数化的,即相当数量的参数和计算对训练过程很重要,但在推理阶段的贡献微小,且无谓地增加了部署环境的计算负荷、存储占用和诊断耗时[18],这对于资源有限的电力边缘智能终端是难以接受的。而且,局放数据的样本规模通常较小(相对于诸多通用数据集),故直接利用MobileNetV2 等普适性框架必然进一步加剧过参数化问题。因此,尚需探索一种有效的模型压缩方法来削减模型冗余、简化计算复杂性,从而获得与局放数据集相匹配的轻量化模型,但目前相关研究鲜有报道。

针对模型压缩问题,剪枝是一种最为直接、高效的方法,一般通过舍弃神经网络中重要性低或可替代性强的参数来削减模型冗余。Liu Zhuang 等[19]选择批量标准化(Batch Normalization,BN)层的γ参数对全局的参数重要性进行排序,并删除γ 小于阈值的参数。He Yang 等[20]提出利用几何中位数等比例地筛选并裁剪各层中最具可替代性的滤波器,即几何中值滤波器剪枝(Filter Pruning via Geometric Median,FPGM)。另外,He Yihui 等[21]基于强化学习提出了自动化模型压缩(AutoML for Model Compression,AMC)来自主确定各层最佳的剪枝比例,对于缓解精度损失大有裨益,但强化学习训练过程复杂、耗时过长,限制了其应用。

为解决已有局放深度诊断模型的高资源占用和推理迟滞问题,本文提出基于剪枝的局部放电轻量化诊断方法。该方法以MobileNetV2 为初始框架,首先通过添加可迭代的重要度因子自主地感知并裁剪模型中的冗余模块,实现“端到端”的深度方向剪枝;在此基础上,结合FPGM 和增强型模拟退火算法(Enhanced Simulated Annealing,ESA)快速、自动化地剪枝卷积层中冗余的滤波器,实现广度方向上的结构精简。

1 深度可分离卷积与MobileNetV2 简介

为实现轻量化卷积计算,深度可分离卷积(Depthwise Separable Convolution,DSC)提出将传统卷积分解为深度卷积和逐点卷积的组合,原理如图1 所示。其中,深度卷积利用C 个3×3×1 的单通道滤波器对维度为DX×DX×C 的输入进行逐通道的特征学习,继而逐点卷积,通过N 个1×1×C 的多通道滤波器实现不同通道上相同点位特征的线性组合,从而将高维的传统卷积转化为两个少参数、低复杂度的卷积。

图1 深度可分离卷积原理
Fig.1 Principle of DSC

DSC 与传统卷积的计算量和参数量的比值分别为

可见当N 较大时DSC 的计算量和参数量仅为传统卷积的1/9 左右[22]

MobileNetV2 利用DSC 构建了线性瓶颈和反向残差两种基本模块(Block),如图2a 所示,二者均由“逐点卷积-深度卷积-逐点卷积”结构组成,图中ReLU6 为激活函数。线性瓶颈的深度卷积步长一般为l=2,承担着数据维度逐级变换的作用;反向残 差(l=1)首末层之间存在跳跃连接,可以借助残差思想防止网络训练过程退化,通常串联于线性瓶颈之后,旨在挖掘瓶颈层特征的更深层次表达、提升模型性能。在MobileNetV2 中,线性瓶颈与多个反向残差的串联称作一个单元,多个单元的串联则构成了完整的MobileNetV2,具体的网络结构及超参配置[16]如图2b 所示。

图2 MobileNetV2 原理
Fig.2 Principle of MobileNetV2

2 基于深度-广度联合剪枝的局部放电轻量化诊断方法

MobileNetV2 虽然能够缩减计算量和参数量,但它是通过增加深度和广度的方式来提升在复杂数据集上的普适性表现,这决定了该结构并非电力设备局放诊断任务的最简约模型。因此,本文将从深度和广度两个维度上自动化地压缩MobileNetV2,获得与局放数据相匹配的紧凑结构,即实现轻量型深度诊断模型结构的自动化选择。

2.1 “端到端”的深度方向剪枝

深度方向剪枝的目的是裁剪模型中冗余的Block,属于Block 级剪枝。MobileNetV2 中存在大量的反向残差,其首尾由跳跃连接直接联通,裁剪后并不会中断信息流动。因此,本文在MobileNetV2的反向残差中引入可学习的重要度因子 α=[α1 α2α10](该方法记为MobileNetV2-α),以自适应地感知各反向残差对局放诊断的贡献,并剪枝低贡献的部分。

假设第i 个反向残差的输入、输出分别为XiYifi(·)为主路径传递函数,则添加αi 的反向残差可表述为

式中,W i为权重参数;sigmoid 函数使得αi∈[0,1],后文中αi 均指经sigmoid 函数归一化后的值。

为了同步提升局放识别率和模型简约性,训练应兼顾分类损失最小化和α 稀疏化(目标1)。进一步地,迫使任意αi 逐渐接近0 或1 的二值形式,以便在削弱冗余Block 的同时避免衰减重要的局放信息(目标2)。训练目标的数学化表述为

式中,Lclass 为分类损失,由交叉熵函数构建;λ 为两项的平衡因子;v 为反向残差的总个数,此处取为10。

训练过程中,两目标交替寻优,收敛稳定后可安全地移除αi 接近0 的反向残差,从而获得规模更小、推理更快的诊断模型M0

2.2 基于FPGM-ESA 的广度方向自动化剪枝

广度方向剪枝着眼于各卷积层中滤波器的冗余,以进一步压缩模型M0,属于滤波器级剪枝。鉴于不同卷积层的冗余程度不同,本节提出了基于FPGM-ESA 的自动化剪枝方法,主要包括FPGM 剪枝和自适应层剪枝率求解两部分,原理如图3 所示。

图3 基于FPGM-ESA 的广度方向自动化剪枝
Fig.3 Automatic pruning in width direction based on FPGM-ESA

2.2.1 FPGM 原理

FPGM 将任一卷积层视作一多维空间(见图3),每个滤波器为空间中的一点,空间的几何中心点即为滤波器组K 的几何中位数FGM,表示为

式中,CK 中滤波器F 的个数;K cK 中的第c 个滤波器。由式(4)可知,FGM 本质上就是K 的信息中心,与K 中其余F 存在最大程度的信息交叠。因此,FGM 及其邻域可由区域外滤波器替代表征,距离FGM 越近的滤波器越具有可替代性,可以视作冗余予以剪枝[20]

需要注意的是,由于相邻两卷积层高度耦合,前一层的剪枝必将造成该层部分输出通道和下层对应卷积核随即失效,实际剪枝时应予以同步处理。

2.2.2 层剪枝率的自适应求解

诊断模型各层的剪枝率是影响剪枝效果的重要因素,任一层中剪枝比例过低则压缩程度不足,而过高又将导致识别精度难以恢复。为此,本节提出增强型模拟退火算法(ESA),旨在自适应地确定全模型最佳的层剪枝率分布,原理见图3。

ESA 以模拟退火算法(Simulated Annealing,SA)为基本框架,首先初始化层剪枝率 s ∈R LL 为模型的卷积层数),通过增加扰动产生新的解snew,并约束其满足总剪枝率Sa,即

式中,sdis 为与当前温度 T 相关的扰动变量;表示对 s +sdis得到的新向量中的所有元素求和。

为了快速探索层剪枝率的最优解,snew 的适应度评价应满足快而准的要求。为此,直接将snew 下剪枝模型的识别率R(snew)作为适应度评价,以满足快速性要求;然而,剪枝后模型特征分布的变化将使得BN 层的统计均值μ 和方差σ2 与当前结构并不匹配,从而极易导致R(snew)严重失准,故本文引入BN 层自适应调整机制[23],即在验证集上重新计算μσ2,如式(6)所示,以增强R(snew)的准确性,而且该调整无需训练其他参数,并不会迟滞搜索进程。

式中,B 为一批次的样本数;xi 为第i 个样本。

根据SA 规则接受或拒绝snew,直至完成本轮退火搜索,输出当前Sa 下的最佳层剪枝率s*及剪枝模型 Ms*。进而,在验证集上快速地两步微调恢复模型识别率,并综合识别率、参数压缩比(PM 0/Ps*)和推理加速(t M0 /t s*)全面地评价 Ms*,称为综合评价,表示为

式中,P M0Ps *分别为模型M0 和当前剪枝模型 Ms*的参数量;t M0ts *分别为两模型的推理时间。

为了最大限度地压缩模型,循环递增Sa 并执行ESA 直至Sa=0.9,输出最大Q 值的层剪枝率和剪枝模型。经重新训练并借助层融合技巧(将卷积层与BN 层的权重线性地融为一层以加速推理[24]),可获得识别率高且更轻、更快的局部放电诊断模型M

2.3 算法流程

本文联合“端到端”的深度方向剪枝和基于FPGM-ESA 的广度方向自动化剪枝,实现局部放电轻量化诊断模型的自动化设计。深度-广度联合剪枝的算法流程如图4 所示,具体步骤如下:

图4 深度-广度联合剪枝的算法流程
Fig.4 Flow chart of depth-width joint pruning

1)将局放信号进行统计获得放电相位分布图谱(Phase Resolved Partial Discharge,PRPD),进一步划分训练集、验证集和测试集。

2)对 MobileNetV2 添加重要度因子 α(即MobileNetV2-α),采用PRPD 训练集训练模型,收敛后剪枝αi 近似为0 的反向残差,得到模型M0

3)根据FPGM 原理求解M0 中各卷积层的中心滤波器FGM,并对其他滤波器按照到FGM 的距离从大到小排序。

4)利用ESA 搜索当前总剪枝率Sa(初始值为0.1)下的最佳层剪枝率s*,根据s*裁剪各层中排序靠后的滤波器获得剪枝模型Ms*。若Ms*的综合评价Q Q,则记录s*Ms*Q 为临时最优候选。

5)步进Sa 进入下一循环,重复步骤4),直至Sa=0.9 时停止循环,将综合评价最优的剪枝模型重新训练作为最终的局放轻量化诊断模型M

3 实验与结果分析

3.1 局部放电数据采集

本文遵循标准IEC 60270 搭建变压器局部放电试验平台,并设计了包括尖端放电、沿面放电、气隙放电和悬浮放电在内的四种放电模型,平台及放电模型结构如图5 所示,图中数据单位均为mm。为了增强局放数据的多样性,每种放电模型有A、B 两套,主要区别如下:①尖端放电分别模拟油纸绝缘和纯油环境下的极不均匀放电;②沿面放电采用球-板电极,但两球电极尺寸差距明显,直径分别为24 mm 和2 mm;③A 组气隙放电关注绝缘纸包封气泡的放电,B 组则模拟油中气泡放电;④悬浮放电主要为悬浮金属配件上的差异。在8~25 kV 阶升电压下分别测试各放电模型,试验利用高频电流传感器(High Frequency Current Transducer,HFCT)采集局放信号,检测频带为1~35 MHz,示波器带宽取为1~10 MHz,采样率设置为20 MS/s。

图5 局部放电试验平台和放电模型
Fig.5 PD test platform and discharge models

PRPD 图谱表征局放信号按照相位统计的放电脉冲幅值和次数的分布特征,蕴含了绝缘缺陷的内在信息,在局放诊断中广泛应用。本文每采集2 s 的局放时域信号形成一个PRPD 图谱,为缓解神经网络的计算负担,将PRPD 图谱的放电相位0°~360°和放电量0~qmax 分别离散为128 个等区间,即压缩为128×128 的二维矩阵,矩阵中的值为对应相位和放电量区间内的放电次数统计。实际上,变电站现场电磁环境复杂,与放电脉冲相似的脉冲型干扰极易被错误地统计在PRPD 图谱中。因此,为增加PRPD 图谱的复杂性、提高诊断模型的泛化能力,通过添加椒盐噪声构建染噪PRPD,以PRPD 矩阵数据点数 nPRPD与噪声点数nnoise 之比定义信噪比(即10lg(nPRPD/nnoise)),则染噪后的信噪比为23 dB。

各类局放信号的PRPD 图谱对比如图6 所示。可以观察到,不同放电类型的PRPD 图谱在脉冲群形态及分布上存在差异:①尖端放电主要分布于外施电压峰值附近,正负半轴的幅值差异较大;②多数沿面放电的脉冲分布在正半周期的上升沿和负半周期的下降沿,即一、三象限;③气隙放电的脉冲 点群较为稀疏;④悬浮放电主要分布于外施电压峰值两侧且正负半轴幅值差异不大。最终,试验共形成 PRPD 图谱 3 200 个(800 个/类),并按照0.7:0.1:0.2 随机地划分为训练集、验证集和测试集。

图6 局部放电信号的PRPD 图谱
Fig.6 PRPD patterns of PD signals

3.2 诊断模型剪枝实验

本文的深度诊断模型利用Pytorch 框架实现,计算硬件平台参数为:Intel i7-9750H CPU @2.60 GHz、NVIDIA gtx1650 GPU(4 GB)和8 GB RAM。训练过程中,两训练目标(式(3))均采用随机梯度下降算法求解,训练批量数为32(测试时为16),重复实验11 次并选择识别率中位数对应的模型作为训练结果,以降低单次训练结果的轻微随机性影响。

3.2.1 MobileNetV2-α 的训练

MobileNetV2-α 的训练旨在保证精度的前提下,逐步衰减低贡献反向残差Block 的重要度因子。多次实验发现,式(3)中目标2 的学习率lr2 相较于目标1 的lr1 更为敏感,对训练过程的影响更大。为此,固定lr1=0.001,考察lr2=0.01、0.10、0.20 和0.50 时的训练情况,迭代曲线如图7 所示。其中,当lr2=0.10时训练效果最佳,识别率稳定于98%附近,且α3α6α10 共6 个重要度因子趋于0 附近,即通过α 的自适应感知认为MobileNetV2 中第3 个和第6~10个反向残差Block 重要性较低,可以作为冗余裁剪。同时,为了验证α 自适应感知的有效性,对所有Block依次增加全连接层输出诊断识别率,并采用相对前一个Block 的识别率提升来评估其重要性,如图8 所示。可以看出,依次增加前3 个反向残差Block可以将识别率提升2%~5%,第4 个则更是实现了近20%的提升,而逐步增加第6~10 个时的提升不明显。由此来看,索引为3、6~10 的反向残差对局放诊断的贡献相对较低,与通过α 筛选的结果一致,验证了本文自主感知反向残差Block 重要度的有效性。

图7 MobileNetV2-α 迭代曲线
Fig.7 Iterative curves of MobileNetV2-α

图8 逐次增加各Block 时的局放识别率
Fig.8 PD recognition rates under increasing each Block

3.2.2 深度-广度联合剪枝

深度方向剪枝就是根据上述训练结果,裁剪MobileNetV2-α 索引为3、6~10 的反向残差Block获得模型M0M0 的性能参数见表1,其中既有放电样本的识别率,又有衡量模型规模的浮点运算量(Float Point Float Operations,FLOPs)、参数量和推理时间(CPU 诊断全部测试样本所需的时间)。可知,模型M0 对气隙放电、沿面放电和悬浮放电的识别率与MobileNetV2-α 完全一致,对尖端放电的识别率有所降低,这是因为训练时α3α6α10 无法完全衰减为0 来绝对地屏蔽相应Block 的影响,故直接剪枝后会对模型产生些许偏差,而经微调后可以恢复。考虑到后续步骤中存在微调,故此处暂不对M0 进行微调处理。而且,剪枝后计算量和参数量的压缩比分别为1.5 和1.7,推理加速近1.3 倍,即深度方向剪枝初步降低了模型规模,提升了模型轻量性和运算实时性。

表1 深度方向剪枝的性能参数
Tab.1 Performance parameters of depth-direction pruning

广度方向剪枝衔接于深度方向剪枝之后,以进一步去除模型M0 广度上的冗余。首先,为了直观地展示模型M0 广度上的滤波器冗余,将M0 第3 个瓶颈结构的部分滤波器输出特征进行可视化,如图9 所示。可以看出,该层主要提取PRPD 图谱的整体轮廓和形态特征,部分特征图的PRPD 特征较为相似,如编号1~5,利用余弦相似度(取值-1~1,越接近1越相似)计算编号1~4 相对于编号5 的信息重叠分别为0.98、0.95、0.99 和0.94,也就是说编号1~5对应的滤波器在特征提取上效果相近,该现象称为滤波器冗余[20],即模型M0 有进一步压缩的可能。

图9 广度方向上的PRPD 特征可视化对比
Fig.9 Visual comparison of PRPD features in width

在模型M0 的基础上,循环进行FPGM-ESA 削减广度上的冗余滤波器,并展示不同Sa 下最优剪枝模型的压缩效果,如图10 所示。随着Sa 的增大,局放特征的损失加剧,适应度评价逐渐降低;利用两步微调可以快速恢复精度,继而计算综合评价Q,可知在Sa=0.6 时取得综合性能最佳,与全部重新训练后的计算结果一致,这表明本文基于两步微调筛选最具潜力的剪枝模型是可行的,相较于重新训练的方式具有更高的剪枝效率。重新训练Sa=0.6 的最优模型,可获得深度-广度联合剪枝的最终模型M,其详细的性能参数见表2。可知,经联合剪枝改进的模型M 与原始MobileNetV2 对各放电类型的识别率均基本一致,相差最大仅为1%左右,即联合剪枝并不会明显影响放电诊断准确性。而作为一种面向资源受限电力智能边缘终端的模型压缩方法,本文更关注模型规模的精简:联合剪枝后,诊断模型计算量和参数量的压缩比为3.5 和9.9,即分别下降了71.11%和89.90%;推理加速2.3 倍,即推理耗时 下降了55.98%,显著降低了模型规模和部署应用的硬件门槛,具有节约硬件成本的优势。

图10 不同剪枝率下的局放识别率统计
Fig.10 PD recognition under different pruning rates

表2 深度-广度联合剪枝的性能参数
Tab.2 Performance parameters of depth-width joint pruning

3.3 对比分析

3.3.1 不同剪枝方法的对比

将本文的联合剪枝与多种主流剪枝方法进行对比,以验证该方法对于局部放电轻量化诊断任务的优越性。对比方法中,V2-0.25 和V2-0.50[16]分别表示训练前裁剪MobileNetV2 各层25%和50%的滤波器;FPGM[20]采用同一剪枝比例裁剪各层;Slimming[19]对全网通道重要度统一排序后使用全局阈值确定剪枝对象;AMC[21]为自动化剪枝,自适应地确定各层剪枝比例。公平起见,除V2-0.25 和V2-0.50 从零开始训练之外,其他方法均基于已训练的MobileNetV2 进行剪枝,并保证FLOPs 基本一致。将各方法多次运行的局放识别率箱线图绘制于图 11,选择识别率中位数的对应模型作为最终模型,并给出模型对不同放电类型的识别率(柱状图)及模型规模参数(见表3)。

表3 不同剪枝方法的FLOPs、参数量和推理时间对比
Tab.3 Comparison of FLOPs,parameters,and inference times among different pruning methods

图11 不同剪枝方法的识别率箱线图和柱状图
Fig.11 Boxplot and bar graph of recognition rates under different pruning methods

接下来,结合图11 和表3 进行分析。V2-0.25箱线图的中位数和四分位与MobileNetV2 较为接近,但由于剪枝力度较小,模型压缩程度有限。V2-0.50、Sliming 和FPGM 相较V2-0.25 在模型压缩上有所提升,但识别率较剪枝前分别下降了3.29%、4.38%和2.66%,其中尖端放电的识别率影响最为明显,最大降幅近6%。AMC 和FPGM-ESA 剪枝表现出较高的识别准确性,识别率分别达到了 97.97%和97.50%;其中AMC 对四类放电的识别能力与剪枝前更为接近,偏差仅为-0.68%、-0.60%、-0.58%和1.30%,但由于其训练过程复杂,所以稳定性不足;而FPGM-ESA 的压缩能力更为突出,参数压缩比较AMC 提高了6 倍,尽管两者推理时间接近,但在剪枝过程中发现,FPGM-ESA 裁剪冗余结构的速度更快,剪枝耗时仅为AMC 的1/34。本文的联合剪枝无论是总体识别率还是对各放电类型的诊断能力,均与剪枝前最为接近,相较对比方法提高了0.31%~4.53%不等,且模型压缩程度更优,表现出对局部放电深度诊断模型的结构精简任务的优越性。

另外,图12 还对ESA 和SA 两种搜索下的联合剪枝进行了对比。如图12a 所示,在不同剪枝率下各进行一轮退火搜索,可以看出,SA 对候选剪枝模型的评价严重失准,特别是高剪枝率下甚至持续位于最低值,而ESA 通过BN 层自适应调整使得适应度评价明显提升,有利于筛选出最具恢复潜力的剪枝模型。得益于此,基于ESA 的联合剪枝表现出更强的稳定性,如图12b 所示,多次重复运行后,识别率中位数为98.28%,最大值与最小值之差仅为0.94%,与基于SA 的搜索方法相比,识别率中位数提高了4.61%,最大值与最小值之差降低了7.97%,这表明本文的ESA 有利于克服SA 在剪枝过程中随 机性大、稳定性差的弊端。

图12 ESA 和SA 两种搜索下的联合剪枝效果
Fig.12 Joint pruning effects under ESA and SA search

3.3.2 与经典网络对比

为了进一步验证本文方法在边缘计算场景中的优越性,采用VGG16、ResNet18、ShuffleNetV2[25]和 GhostNet[26]等经典网络构建局放诊断模型与本文方法进行对比。其中,前两种网络在电力设备放电诊断中已有应用,并取得了较好的识别效果;后两种为新型的轻量级神经网络。各网络采用随机梯度下降算法训练,迭代50 次后均可稳定收敛,其他训练设置与本文方法一致,结果见表4 和表5。

表4 与经典网络的识别率对比
Tab.4 Comparison of accuracy with classical networks

表5 与经典网络的资源占用对比
Tab.5 Comparison of resource occupancy with others

表4 为局放识别率对比,在不同信噪比的PRPD测试集上,本文方法与ResNet18、ShuffleNetV2 和GhostNet 表现出相近的识别准确性,仅略逊色于VGG16。实际上,在边缘计算场景中,资源占用是制约深度模型部署的更关键因素,通常允许轻微地损失识别率来换取资源占用的大幅降低[19]。接下来,重点考察各网络的资源占用(见表5),其中部署VGG16 和ResNet18 所需的存储及内存消耗高达数十乃至数百MB 且计算量庞大,但电力设备配置的嵌入式系统或人工智能芯片通常内存小、计算力有限,且加之监测任务众多,这种网络难以满足日益增长的电力设备边缘部署需求;与之相比,本文方法、ShuffleNetV2 和GhostNet 所需的硬件资源明显降低,而本文方法最为突出,存储和内存消耗分别仅为0.90 MB 和12.89 MB,对单个PRPD 样本的诊断耗时也仅为对比方法的10.73%、25.94%、35.69%和42.38%,最大推理加速达9.3 倍。综上可知,本文的局放轻量化诊断模型能在基本不牺牲精度的前提下,大幅降低资源占用、提高诊断速度,十分适合资源受限的电力边缘计算场景。

4 结论

针对已有局部放电深度诊断模型存在的高资源占用和推理迟滞问题,本文以MobileNetV2 为基础,提出了基于深度-广度联合剪枝的局部放电轻量化诊断方法,为电力设备边缘侧部署提供了解决方案。主要工作与结论如下:

1)提出了一种重要度自感知的深度方向模型剪枝方法,能够在 PRPD 数据的驱动下自主地学习MobileNetV2 中各Block 对放电诊断任务的重要度并裁剪冗余部分,实现了深度方向上的结构精简和推理加速。

2)提出了基于FPGM-ESA 的广度方向自动化剪枝方法,该方法能够针对模型不同卷积层的参数冗余情况自适应地确定各层的剪枝比例,并通过循环搜索确定最佳剪枝规模。联合剪枝后,放电识别率与MobileNetV2 基本一致,但参数量下降了89.90%、推理加速达2.3 倍。

3)本文所提方法与训练前裁剪、Slimming、FPGM 和AMC 等剪枝方法相比,具有更好的可恢复能力,识别率提高了0.31%~4.53%不等;且相较于AMC 剪枝,参数压缩率更高,剪枝耗时仅为其1/34。

4)同基于VGG、ResNet、ShuffleNet 和GhostNet的局放诊断方法相比,不同信噪比下表现出相近的放电识别能力;但资源占用大幅降低,存储和内存消耗仅为0.90 MB 和12.89 MB,更实现了最大9.3倍的推理加速。

参考文献

[1]宋思蒙,钱勇,王辉,等.基于方向梯度直方图属性空间的局部放电模式识别改进算法[J].电工技术学报,2021,36(10): 2153-2160.Song Simeng,Qian Yong,Wang Hui,et al.Improved algorithm for partial discharge pattern recognition based on histogram of oriented gradient attribute space[J].Transactions of China Electrotechnical Society,2021,36(10): 2153-2160.

[2]李泽,王辉,钱勇,等.基于加速鲁棒特征的含噪局部放电模式识别[J].电工技术学报,2022,37(3): 775-785.Li Ze,Wang Hui,Qian Yong,et al.Pattern recognition of partial discharge in the presence of noise based on speeded up robust features[J].Transactions of China Electrotechnical Society,2022,37(3): 775-785.

[3]Gao Kai,Tan Kexiong,Li Fuqi,et al.PD pattern recognition for stator bar models with six kinds of characteristic vectors using BP network[J].IEEE Transactions on Dielectrics and Electrical Insulation,2002,9(3): 381-389.

[4]Ibrahim K,Sharkawy R M,Salama M M A,et al.Realization of partial discharge signals in transformer oils utilizing advanced computational techniques[J].IEEE Transactions on Dielectrics and Electrical Insulation,2012,19(6): 1971-1981.

[5]周利军,刘聪,权圣威,等.基于点对称变换的乙丙橡胶电缆终端缺陷诊断[J].电工技术学报,2022,37(9): 2388-2398.Zhou Lijun,Liu Cong,Quan Shengwei,et al.Defect diagnosis of EPR cable terminal based on symmetrized dot pattern[J].Transactions of China Electrotechnical Society,2022,37(9): 2388-2398.

[6]Barrios S,Buldain D,Comech M P,et al.Partial discharge identification in MV switchgear using scalogram representations and convolutional AutoEncoder[J].IEEE Transactions on Power Delivery,2021,36(6): 3448-3455.

[7]Duan Lian,Hu Jun,Zhao Gen,et al.Identification of partial discharge defects based on deep learning method[J].IEEE Transactions on Power Delivery,2019,34(4): 1557-1568.

[8]万晓琪,宋辉,罗林根,等.卷积神经网络在局部放电图像模式识别中的应用[J].电网技术,2019,43(6): 2219-2226.Wan Xiaoqi,Song Hui,Luo Lingen,et al.Application of convolutional neural networks in pattern recognition of partial discharge image[J].Power System Technology,2019,43(6): 2219-2226.

[9]朱煜峰,许永鹏,陈孝信,等.基于卷积神经网络的直流XLPE 电缆局部放电模式识别技术[J].电工技术学报,2020,35(3): 659-668.Zhu Yufeng,Xu Yongpeng,Chen Xiaoxin,et al.Pattern recognition of partial discharges in DC XLPE cables based on convolutional neural network[J].Transactions of China Electrotechnical Society,2020,35(3): 659-668.

[10]Borghei M,Ghassemi M.A deep learning approach for discrimination of single-and multi-source corona discharges[J].IEEE Transactions on Plasma Science,2021,49(9): 2936-2945.

[11]张聪聪,王刚,高栋,等.基于卷积网络的GIS 局部放电缺陷诊断方法与应用[J].电工电能新技术,2021,40(3): 72-80.Zhang Congcong,Wang Gang,Gao Dong,et al.Partial discharge pattern recognition based on convolutional neural network[J].Advanced Technology of Electrical Engineering and Energy,2021,40(3): 72-80.

[12]陈伟根,张知先,李剑,等.电气设备状态参量智能传感技术[J].中国电机工程学报,2020,40(增刊1): 323-342.Chen Weigen,Zhang Zhixian,Li Jian,et al.Intelligent sensing technology for power equipment state parameters[J].Proceedings of the CSEE,2020,40(S1): 323-342.

[13]马富齐,王波,董旭柱,等.电力工业安全影像解译:基本概念与技术框架[J].中国电机工程学报,2022,42(2): 458-475.Ma Fuqi,Wang Bo,Dong Xuzhu,et al.Safety image interpretation of power industry: basic concepts and technical framework[J].Proceedings of the CSEE,2022,42(2): 458-475.

[14]黄彦钦,余浩,尹钧毅,等.电力物联网数据传输方案:现状与基于5 G 技术的展望[J].电工技术学报,2021,36(17): 3581-3593.Huang Yanqin,Yu Hao,Yin Junyi,et al.Data transmission schemes of power internet of things: present and outlook based on 5 G technology[J].Transactions of China Electrotechnical Society,2021,36(17): 3581-3593.

[15]赵仕策,赵洪山,寿佩瑶.智能电力设备关键技术及运维探讨[J].电力系统自动化,2020,44(20): 1-10.Zhao Shice,Zhao Hongshan,Shou Peiyao.Discussion on key technology and operation &maintenance of intelligent power equipment[J].Automation of Electric Power Systems,2020,44(20): 1-10.

[16]Sandler M,Howard A,Zhu Menglong,et al.MobileNetV2: inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,Salt Lake City,UT,USA,2018: 4510-4520.

[17]Wang Yanxin,Yan Jing,Sun Qifeng,et al.A MobileNets convolutional neural network for GIS partial discharge pattern recognition in the ubiquitous power internet of things context: optimization,comparison,and application[J].IEEE Access,2019,7: 150226-150236.

[18]Luo Jianhao,Zhang Hao,Zhou Hongyu,et al.ThiNet: pruning CNN filters for a thinner net[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(10): 2525-2538.

[19]Liu Zhuang,Li Jianguo,Shen Zhiqiang,et al.Learning efficient convolutional networks through network slimming[C]//2017 IEEE International Conference on Computer Vision (ICCV),Venice,Italy,2017: 2755-2763.

[20]He Yang,Liu Ping,Wang Ziwei,et al.Filter pruning via geometric median for deep convolutional neural networks acceleration[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),Long Beach,CA,USA,2020: 4335-4344.

[21]He Yihui,Lin Ji,Liu Zhijian,et al.AMC: AutoML for model compression and acceleration on mobile devices[C]//Computer Vision -ECCV 2018,Munich,Germany,2018: 815-832.

[22]王旭红,李浩,樊绍胜,等.基于改进SSD 的电力设备红外图像异常自动检测方法[J].电工技术学报,2020,35(增刊1): 302-310.Wang Xuhong,Li Hao,Fan Shaosheng,et al.Infrared image anomaly automatic detection method for power equipment based on improved single shot multi box detection[J].Transactions of China Electrotechnical Society,2020,35(S1): 302-310.

[23]Zhai Xiaodong,Qiao Fei,Ma Yumin,et al.A novel fault diagnosis method under dynamic working conditions based on a CNN with an adaptive learning rate[J].IEEE Transactions on Instrumentation and Measurement,2022,71: 1-12.

[24]Meng Fanxu,Cheng Hao,Zhuang Jiaxin,et al.RMNet: equivalently removing residual connection from networks[EB/OL].https://arxiv.org/abs/2111.00687.

[25]Ma Ningning,Zhang Xiangyu,Zheng Haitao,et al.ShuffleNet V2: practical guidelines for efficient CNN architecture design[C]//Computer Vision-ECCV 2018,Munich,Germany,2018: 122-138.

[26]Han Kai,Wang Yunhe,Tian Qi,et al.GhostNet: more features from cheap operations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),Seattle,WA,USA,2020: 1577-1586.

A Lightweight Partial Discharge Diagnosis Method of Power Equipment Based on Depth-Width Joint Pruning

Zhang Yi Zhu Yongli
(School of Electrical and Electronic Engineering North China Electric Power University Baoding 071003 China)

Abstract Partial discharge (PD) is an early indicator on insulation deterioration that will cause catastrophic failure on the power system,so PD diagnosis is a significant approach to monitor the operating status of the electrical equipment.Recently,deep learning (DL) has gradually reached the mainstream in the field of PD diagnosis and the increasing intelligent terminals near power equipment maybe serve as the carrier for such DL models.However,the existing DL-based PD models tend to occupy higher computing resources,while the current power intelligent terminals usually have small memory space and limited calculation capacity.To address it,a lightweight PD diagnosis method based on depth-width joint pruning is proposed in this paper,which can effectively compress the computational resource consumption of DL model while ensuring the accuracy of PD diagnosis.Firstly,a set of 1D PRPD matrix is constructed based on the discharge amplitude,phase and pulse number,including four types of PD defect such as point discharge,surface discharge,air-gap discharge and suspended discharge.Then,this method selects MobileNetV2 as the basic model,and an iterable importance factor α is inserted in the training process to assess the importance of each convolution module.According to α,several modules with low importance factors (close to 0) are pruned to simplify the basic model in depth direction.Finally,to further compress this model,it adopts a filter-level pruning approach called filter pruning via geometric median (FPGM) to remove redundant convolution filters,in which the pruning ratio of filters in each layer is adaptively calculated by an enhanced simulated annealing search (ESA).Through cyclical search,a highly compressed model can be generated with almost no loss of accuracy,while greatly reduces the computational cost and time.The experimental results show that,with the premise of remaining the diagnosis accuracy,the proposed method can automatically design an efficient PD diagnosis model with lightweight architecture and less diagnosis time,achieving 98.23% accuracy,9.9 times of parameter compression and 2.3 times of inference acceleration.The comparison with different pruning methods such as pre-training pruning,Slimming,FPGM and AutoML for model compression (AMC) shows that,the proposed method has 0.31%~4.53% better diagnosis accuracy than the others’,and its pruning speed is 34 faster than AMC’s.Therefore,it is more appropriate to apply in the compression of PD diagnosis model.Furthermore,compared with other DL-based diagnosis models such as VGG16,ResNet18,ShuffleNetV2 and GhostNet,the proposed method shows similar diagnosis accuracy under different noise levels,and more significantly,the storage and memory consumption reduce to only 0.90 MB and 12.89 MB respectively,and the maximum speedup of diagnosis speed reaches up to 9.3 times.The following conclusions can be drawn from the above analysis: (1) Driven by the PRPD data,the proposed depth-direction pruning can automatically learn the importance of each convolution module for PD diagnosis task,and then pruning the low importance parts have less impact on the accuracy of PD diagnosis.(2) In the breadthdirection pruning,the pruning ratio of filters in each layer is adaptively determined by ESA search,which achieves the comprehensive optimum among accuracy,parameters number and PD diagnosis time.Therefore,it benefits for avoiding over-or under-compression of DL model.(3) By jointing both depth-and width-directions pruning,the proposed method realizes the automatic design of the architecture for PD diagnosis model,which greatly reduces the storage space,memory consumption and diagnosis time.Compared with traditional deep learning models,it is more suitable for the scenarios of resource-constrained power intelligent terminals.

Keywords:Partial discharge,deep learning,automatic pruning,lightweight diagnosis,architecture design

中图分类号:TM85

DOI:10.19595/j.cnki.1000-6753.tces.221585

河北省自然科学基金(F2022502002)和特高压工程技术(昆明、广州)国家工程实验室开放基金资助项目。

收稿日期 2022-08-16

改稿日期 2022-09-08

作者简介:

张 翼 男,1994 年生,博士研究生,研究方向为输变电设备在线监测与故障诊断。

E-mail:pw_zhangyi@163.com

朱永利 男,1963 年生,教授,博士生导师,研究方向为电力设备大数据分析与智能电网。

E-mail:yonglipw@163.com(通信作者)

(编辑 李冰)