基于多级二阶注意力孪生网络的小样本GIS局部放电诊断方法

（电力设备电气绝缘国家重点实验室（西安交通大学）西安 710049）

摘要以数据驱动的智能故障诊断方法近年来取得了突飞猛进的发展，然而受现场复杂工况和小样本条件的制约，训练高精度、高鲁棒的气体绝缘组合电器（GIS）局部放电诊断模型仍然是一个挑战。为此，该文提出一种新颖的孪生网络用于小样本GIS局部放电诊断，其主要由两个相同结构、参数的特征提取器和一个度量学习器组成。在特征提取器设计中，引入多尺度卷积来挖掘局部放电信号中更全面的特征信息。同时引入二阶注意力模块以有效利用不同通道之间的相关信息，提取具有鉴别性和代表性的特征，增强模型的特征提取能力。度量学习器用来对度量特征的相似度进行判断，依此来比较和匹配目标任务下的样本来实现GIS局部放电诊断。实验结果表明，所提出的多级二阶注意力孪生网络在每类支撑集数量为5时便可达到93.76 %的诊断精度，相比于其他方法而言优势明显，同时对非平衡样本具有很强的容错性，为现场小样本GIS局部放电高精度、高鲁棒诊断提供了解决思路。

关键词：孪生网络多尺度卷积二阶注意力模块小样本 GIS局部放电

0 引言

监测和诊断气体绝缘组合电器（Gas-Insulated Switchgear, GIS）中的局部放电（Partial Discharge, PD）现象是对其绝缘状态进行评估的有效手段[1]。随着人工智能技术的快速发展，数据驱动的诊断方法在GIS局部放电诊断上表现出优异的性能[2]，深度学习方法由于能够自动学习GIS局部放电（PD）信号与故障类型间的非线性关系而取得了更为显著的效果[3-5]。

然而，现有深度学习方法都是在海量数据的前提下训练的，当数据量减少时模型性能下降严重。对于现场运行的GIS而言，一方面故障概率相对较低，另一方面运行状态变化较小，为此只能获得典型缺陷下的小样本数据集。因此，如何实现小样本下的GIS局部放电诊断成为亟待解决的问题。虽然迁移学习方法能够将海量源域数据下学习到的诊断知识应用于小样本目标域，但是目前大多数迁移学习方法都是基于深度结构的，依赖足够的源域样本和训练过程，导致其现场应用受到掣肘[6-7]。

元学习作为一种针对小样本及新任务快速适应的学习方法，是解决小样本分类问题的有效手段[8-9]。元学习侧重于如何获得学习能力而不是学习本身，因此只需简单的调整即可适应实际工业场景中的新任务。基于度量的元学习模型通过学习一个统一的、与类别无关的距离特征空间，能够实现小样本下的快速分类[10-11]。孪生网络作为一种典型的度量元学习方法，不仅结构简单且泛化能力强，在小样本变压器诊断[12]和数据匮乏下的窃电检测[13]等领域取得了优异的效果。

受启发于基于度量元学习的孪生网络，本文提出了一种新颖的孪生网络用于小样本GIS局部放电诊断。为尽可能地学习广义表示并避免过拟合，构建了多级二阶注意力卷积网络作为孪生网络的特征提取器，从而挖掘出局部放电数据中更全面的特征信息并提取具有鉴别性和代表性的特征。采用欧几里德距离作为度量学习器对度量特征的相似度进行学习，实现小样本下GIS局部放电诊断。在样本受限的条件下，基于孪生网络的诊断模型能够准确、鲁棒地对GIS局部放电进行分类诊断。

1 多级二阶注意力孪生网络

1.1 孪生网络

孪生网络作为一种判别性学习方法，可用于验证和识别在训练过程中类别数量非常多以及单个类别训练样本非常少的任务[14]，实现小样本GIS局部放电高精度、高鲁棒诊断。孪生网络的结构如图1所示，主要由两个具有相同结构和参数的特征提取器和一个度量学习器组成。在训练过程中，特征提取器从局部放电样本对中学习相似性度量。度量学习器通过在目标空间中建立简单距离函数来近似输入空间中的语义距离，从而使用相似性度量来比较或匹配目标任务下的样本以实现GIS局部放电诊断。对每一个特征提取器，由参数w 加权的函数Gw (x)完全相同，它们学习两个输入以获得对称相似性度量。当样本对（x1, x2）来自同一类别时，相似性度量Ew (x1, x2)较小，否则较大。本文选择欧几里德距离作为度量学习器，其计算过程如下

因此，在训练和测试过程中，损失函数必须使相似样本之间的距离最小，异质样本之间的距离最大，以保证最终概率向量中存在大尺寸分布趋势。孪生网络作为一种小样本学习方法，其训练和测试过程严格按照A-way K-shot[15]的形式进行。对于训练集（本文指代源域数据集），通过构建多个任务并在每个任务中随机选择A类，每类K个样本，以此作为支撑集实现模型训练。对于测试集（本文指代目标域数据集），同样选择A类样本，每类K个样本，以此作为支撑集并将剩余样本作为查询集进行模型测试。通过A-way K-shot方式，不仅赋予了模型学习的能力，且通过微调即可将学习到的元知识迁移到新的任务下，实现GIS局部放电高精度、鲁棒诊断。本文以交叉熵[16]作为损失函数来实现整个网络的训练，其计算过程如下。

式中，L(×)为损失函数；w 和b分别为网络的权重和偏差；yi和pi分别为期望和预测概率。

1.2 多级二阶注意力卷积网络

孪生网络中特征提取器的好坏将直接影响小样本下GIS局部放电诊断的性能。考虑到小样本GIS局部放电诊断要求特征提取器在尽可能学习广义表示的同时避免过拟合，为此构建了四个卷积层嵌入的卷积神经网络作为特征提取器。目前大量的研究表明，对卷积神经网络进行二阶统计有助于增强其特征表示能力[17]。为此，本文加入注意力机制[17]来提取二阶注意力特征，构建了多级二阶注意力卷积网络。通过在池化层后面添加二阶注意力模块来自适应地重新缩放通道特征，能够实现更强大的表征学习。

1.2.1 多尺度卷积模块

针对单一尺度卷积难以完全挖掘出样本特征信息的问题，本文构造了多尺度卷积模块来捕获GIS局部放电特征，多尺度卷积模块如图2所示。该模块由3个卷积和1个池化共4个并行操作组成：3个卷积的卷积核尺寸分别为5、7和9；作为第4个尺度，最大池化操作保留了原始信号的下采样表示。在每个卷积之前和池化之后分别引入一个卷积核大小为1的卷积层，主要有以下两个目的：①可以结合非线性激活函数来增加网络的非线性表达能力，同时保持原始输入的规模不变；②起到了降低通道维数，进一步减少网络参数的作用。然后将提取的N个尺度的特征序列融合到通道维度中，表示为

式中，f1～fN为不同尺度下提取的特征序列，本文设置N=4；F为融合后的特征序列。

1.2.2 二阶注意力模块

考虑到二阶统计有助于增强卷积神经网络的特征表示能力，本文引入了二阶注意力模块来聚合特征内部或特征之间的二阶统计量[18]。二阶注意力模块能够有效利用不同通道之间的相关信息，从而提取具有鉴别性和代表性的特征。本文所采用的二阶注意力模块如图3所示。

如图3所示，二阶特征统计用于自适应地学习特征之间的依赖关系以重新调整通道特征。对于给定的一个C×H×W特征图F=[f1f2 … fC]，特征图C的大小为H×W。将特征图重新建模为特征矩阵X，样本协方差矩阵Σ为

式中，

，s=W×H为特征维度， width=11,height=15

为s×s阶的单位矩阵， width=12,height=12

为s×s阶的全1矩阵（矩阵中各元素均为1）。考虑到协方差归一化能够增强卷积神经网络的表示能力，本文通过特征分解将通道协方差矩阵分解为

式中，U为正交矩阵；Λ为特征值的非递增顺序的对角矩阵，Λ=diag(l1, l2,…, lC)。为了对协方差进行归一化，本文采用如式（6）所示的计算公式计算矩阵幂。

式中，a 为正实数， width=114,height=21

；

为通道描述符。

归一化协方差矩阵可以看作是信道描述符，描述了信道特征之间的相关性。假设 width=17,height=13.95

，可以通过减少

得到信道方向统计量z，z width=9,height=9

RC×1。因此z的第C维可计算为

式中，HGCP(∙)为全局协方差池化函数；yC为通道描述符的一个分量；zC是关于C的统计量。不同于一阶池化，全局协方差池化能够捕获更准确的统计数据特征。

为了通过全局协方差池化来利用聚合信息，本文采用门控机制来捕捉通道间依赖。为此本文使用一个带有sigmoid函数的简单门控机制[17]，表示为

式中，WU和WD为卷积层的权重集；s为通道注意力尺度；ReLu( · )为激活函数。接着用s重新缩放输入，最终输出为

1.2.3 多级二阶注意力卷积网络结构

本文所构建的多级二阶注意力卷积网络结构如图4所示。通过两个多尺度卷积模块自动提取GIS局部放电的多尺度特征，学习更丰富、更有效的特征集。后续两个传统单一尺度卷积模块对多尺度特征进行特征提取，去除多尺度特征的冗余信息。本文在每个卷积层后面设计了一个二阶注意力模块来捕捉信道内部的相关性，自适应地重新缩放通道特征，以实现更强大的表征学习。在多尺度卷积模块后设置一个Dropout层[18]，dropout率为0.5，防止网络过拟合。同时每一卷积块后增加一个批归一化[19]（Batch Normalization, BN）帮助网络训练。

1.3 多级二阶注意力孪生网络GIS局部放电诊断流程

在整个GIS局部放电诊断模型中，两个共享权重的多级二阶注意力卷积网络被用作特征提取器并和一个距离度量学习器共同构成了孪生网络。本文所构建的多级二阶注意力孪生网络结构和诊断流程如图5所示。具体流程如下：

（1）数据集构建与划分。构建源域和目标域数据集，并随机选取A-way K-shot的支撑集S和查询集Q。源域数据集中的支撑集用于训练故障分类模型，查询集用于评估模型的性能。目标域在划分一个支撑集后，其余样本全部作为查询集。

（2）模型的建立和训练。首先构建如图1所示的多级二阶注意力孪生网络。然后，将源域数据集下每次提取的数据输入网络进行训练。经过M次训练，学习到能够实现小样本GIS局部放电诊断的满意模型，并将模型中的参数固定。

（3）故障样本测试。将目标域数据集中的支撑集和查询集输入到训练好的网络中，网络终端将给出分类结果。通过多任务的训练和参数的优化，该模型已经具备了在A-way K-shot样本集上对不同的A类故障样本进行分类的能力。为此，通过支撑集微调，便可实现现场小样本下的高精度诊断。

2 案例分析

2.1 数据获取

首先，本文建立了一个GIS局部放电实验平台来构建源域数据集，实验接线原理如图6所示。实验所需的主要设备和关键参数见表1。实验过程中，在35～110 kV的阶升电压下进行局部放电实验。为保证所获取的局部放电样本的可靠性，实验过程中通过多次改变缺陷位置来模拟局部放电随机性。通过实验，本文获取自由金属颗粒、金属尖端、悬浮电极和沿面放电四类缺陷各200组数据用于源域局部放电诊断。四类典型缺陷下的局部放电图谱如图7所示。

然后，本文以现场收集到的GIS局部放电样本作为目标域数据。现场数据集来源于某电力公司多年来设备运维和现场巡检中积累的数据。由于现场积累的局部放电样本为多个厂家生产的不同电压等级GIS中采集到的数据，为此需要对局部放电样本进行归一化处理，本文采用Z-score方法进行归一化处理[20]。另外，需要对现场台账数据进行打标签或者剔除处理。通过上述预处理，得到自由金属颗粒、金属尖端、悬浮电极和沿面放电四类缺陷图谱，分别为60、60、40、40组。

2.2 结果验证与分析

本文实验均以Pytorch为框架，在配备NVIDIA RTX3080-Ti 12GB GPU，i9-10850K 32GB CPU和32 GB RAM的计算机上进行。为验证本文多级二阶注意力孪生网络（Multi-level Second-order attention Siamese Network, MSSN）的优势，选择以下几个模型作为对比：

（1）多级二阶注意力卷积神经网络（Multi-level second-order attention Convolutional Neural Network, MCNN）。

（2）孪生网络（Siamese Network, SN）：选择与多级二阶注意力卷积神经网络具有相同层数的卷积神经网络作为特征提取器，区别在于未引入多尺度卷积和二阶注意力模块。

（3）多尺度孪生网络（Multi-scale Siamese Network, MSN）：选择与多级二阶注意力卷积网络具有相同层数的多尺度卷积神经网络作为特征提取器，区别在于未引入二阶注意力模块。

（4）二阶注意力孪生网络（Second-order attention Siamese Network, SSN）：选择与多级二阶注意力卷积网络具有相同层数的二阶注意力卷积神经网络作为特征提取器，区别在于未引入多尺度卷积。

（5）级联微调迁移学习[21]（ Fine-tuning Transfer learning, FT）：以多级二阶注意力卷积网络为基础模型。

（6）域适应迁移学习[22]（Domain Adaptive Transfer Learning, DATL）：以多级二阶注意力卷积网络为特征提取器。

（7）传统卷积神经网络[23]（Traditional Convolu- tional Neural Network, TCNN）。

（8）支持向量机[24]（Support Vector Machines, SVM）。

为消除参数初始化对模型性能的影响，本文重复实验10次取平均值作为最终结果。同时，构建4-way 1-shot、4-way 5-shot和4-way 20-shot三个实验来探究支撑集样本数K对诊断结果的影响，表2给出了不同方法下的GIS局部放电诊断结果。从表2可以看出，对于所有孪生网络而言，随着K值增加，模型精度增加。但在K=5时，其精度已经达到90 %以上，当K增大到20时其精度增加不再明显。K值较小时对现场GIS绝缘缺陷的指导意义更强，尤其是针对特高压GIS样本更为匮乏的场景。

从表2中可以看出，本文所提方法在K=5时，GIS局部放电诊断精度达到了93.76 %，相对于MCNN、SN、MSN、SSN、FT、DATL、TCNN和SVM分别提升了57.34 %、4.53 %、2.78 %、2.61 %、45.53 %、25.97 %、65.91 %和33.97 %，优势明显。其中MCNN和TCNN诊断精度低下的最主要原因是二者对样本量的严重依赖。而SVM则是难以学习局部放电信号和故障类别的非线性关系，且其受噪声影响严重。虽然迁移学习方法也能提升小样本下GIS局部放电诊断精度，但本文方法在K=5时便已实现迁移学习方法在支撑集更大时难以超越的精度。为此，本文后续均以K=5进行模型性能分析与对比。

另外，从MSN和SN的对比可以看出，多尺度卷积能够挖掘出局部放电数据中更全面的特征信息，从而提升故障诊断精度。从SSN与SN的对比可以看出，二阶注意力模块能够有效利用不同通道之间的相关信息，从而提取具有鉴别性和代表性的特征，对提升GIS局部放电诊断精度具有重要意义。而TCNN和SVM在小样本GIS局部放电上的诊断性能欠佳，难以实现满意的GIS局部放电诊断结果。

图8给出了10次训练的箱形图和散点图。从图8中可以看出，本文所提方法箱形图的高度最高，宽度最窄，说明其能够实现小样本GIS局部放电的高精度鲁棒诊断。另外从散点图中可以看出，本文所提方法的分散性最小、稳定性最好，进一步说明了其具有更强的鲁棒性。

图9给出了不同方法的混淆矩阵来对不同缺陷类型的诊断结果进行可视化。混淆矩阵中的0、1、2和3分别表示自由金属颗粒、金属尖端、悬浮电极和沿面放电四类缺陷。从混淆矩阵结果中可以看出，所有方法对沿面放电的诊断精度最低，这与故障机理有关，即其随机性更大。另外自由金属颗粒缺陷和金属尖端缺陷互相识别错误的概率比较高，这与缺陷标注有关。

图10给出不同方法的t-分布邻域嵌入（t- distribution Stochastic Neighbor Embedding, t-SNE）下的二维可视化结果。可以看出，MCNN下所有故障混叠在一起，难以实现有效的划分。采用DATL后，各故障簇被聚类在一起，但此时只有悬浮电极缺陷可分，不同故障簇间的分类边界不明显。采用SN后，各故障簇被有效地聚类在一起，虽然个别故障被误分类，但是整体分类边界清晰。本文的MSSN能够将同一类型故障簇聚类在一起，并使不同类故障簇远离，故障簇间的距离变得更大，分类更为有效，进一步验证了本文方法的优势。另外，从SN和MSSN的对比结果中可以看出，MSSN的故障特征聚类效果更好，说明了多级二阶注意力模块在提升模型特征提取能力上的优势。

然而实际运行中的GIS设备，由于每一缺陷出现的概率不同，现场获取到的故障数据为非平衡数据。为此，本文构建了如表3所示的非平衡样本来验证不同方法的诊断性能。图11给出了不同方法在非平衡样本下的GIS局部放电诊断结果。可以看出，在样本不平衡时，由于卷积神经网络对非平衡样本的敏感性，导致迁移学习下的GIS局部放电诊断精度有一定下降。但是对孪生网络而言，其诊断精度几乎不变，这与小样本训练方式有关，即严格按照A-way K-shot的方式，每一任务都是在众多训练集中随机选取的K个样本作为支撑集进行模型训练，直接避免了非平衡样本的问题。对非平衡样本的强容错性，进一步彰显了本文所提方法的优势。

3 结论

针对目前难以在小样本下训练一个高精度、高鲁棒模型实现小样本GIS局部放电诊断的问题，本文提出了一种多级二阶注意力孪生网络用于受限小样本下的GIS绝缘缺陷诊断，并在现场数据集下进行了验证。本文的主要结论如下：

1）所构建的多级二阶注意力孪生网络能够实现现场小样本GIS局部放电的高精度、高鲁棒诊断。在每一类支撑集数量达到5时其诊断精度就已达到93.76 %。这为现场小样本GIS局部放电诊断提供了可行的解决方案，尤其是对特高压GIS样本更为匮乏的场景。

2）多尺度卷积和二阶注意力模块的引入，有效提升了GIS局部放电诊断精度。多尺度卷积能够挖掘局部放电数据中更全面的特征信息；二阶注意力模块能够有效利用不同通道之间的相关信息，从而提取具有鉴别性和代表性的特征，这些对提升GIS局部放电诊断精度具有重要意义。

3）本文所提方法的训练和测试均是在小样本下进行的，并且严格按照A-way K-shot的方式训练，每一任务都是在众多训练集中随机选取的K个样本作为支撑集进行模型训练，对非平衡样本具有很强的容错性。

[1] 刘青, 常丁戈, 邓军波. 用于变电站站域局部放电特高频测向的空间谱估计算法优化选择[J]. 电工技术学报, 2020, 35(16): 3551-3560.

Liu Qing, Chang Dingge, Deng Junbo. Optimal sele- ction on spatial spectrum estimation algorithms for UHF direction finding of partial discharge in sub- station[J]. Transactions of China Electrotechnical Society, 2020, 35(16): 3551-3560.

[2] 王艳新, 闫静, 王建华, 等. 基于域对抗迁移卷积神经网络的小样本GIS绝缘缺陷智能诊断方法[J]. 电工技术学报, 2022, 37(9): 2150-2160.

Wang Yanxin, Yan Jing, Wang Jianhua, et al. Intelligent diagnosis for GIS with small samples using a novel adversarial transfer learning in convolutional neural network[J]. Transactions of China Electro- technical Society, 2022, 37(9): 2150-2160.

[3] 李泽, 王辉, 钱勇, 等. 基于加速鲁棒特征的含噪局部放电模式识别[J]. 电工技术学报, 2022, 37(3): 775-785.

Li Ze, Wang Hui, Qian Yong, et al. Pattern recog- nition of partial discharge in the presence of noise based on speeded up robust features[J]. Transactions of China Electrotechnical Society, 2022, 37(3): 775- 785.

[4] Karimi M, Majidi M, MirSaeedi H, et al. A novel application of deep belief networks in learning partial discharge patterns for classifying corona, surface, and internal discharges[J]. IEEE Transactions on Indu- strial Electronics, 2020, 67(4): 3277-3287.

[5] 王卓, 王玉静, 王庆岩, 等. 基于协同深度学习的二阶段绝缘子故障检测方法[J]. 电工技术学报, 2021, 36(17): 3594-3604.

Wang Zhuo, Wang Yujing, Wang Qingyan, et al. Two stage insulator fault detection method based on collaborative deep learning[J]. Transactions of China Electrotechnical Society, 2021, 36(17): 3594-3604.

[6] 臧海祥, 郭镜玮, 黄蔓云, 等. 基于深度迁移学习的时变拓扑下电力系统状态估计[J]. 电力系统自动化, 2021, 45(24): 49-56.

Zang Haixiang, Guo Jingwei, Huang Manyun, et al. State estimation for power systems with time-varying topology based on deep transfer learning[J]. Auto- mation of Electric Power Systems, 2021, 45(24): 49-56.

[7] Wang Yanxin, Yan Jing, Yang Zhou, et al. A domain adaptive deep transfer learning method for gas- insulated switchgear partial discharge diagnosis[J]. IEEE Transactions on Power Delivery, 2022, 37(4): 2514-2523.

[8] 李凡长, 刘洋, 吴鹏翔, 等. 元学习研究综述[J]. 计算机学报, 2021, 44(2): 422-446.

Li Fanzhang, Liu Yang, Wu Pengxiang, et al. A survey on recent advances in meta-learning[J]. Chinese Journal of Computers, 2021, 44(2): 422-446.

[9] 赵凯琳, 靳小龙, 王元卓. 小样本学习研究综述[J]. 软件学报, 2021, 32(2): 349-369.

Zhao Kailin, Jin Xiaolong, Wang Yuanzhuo. Survey on few-shot learning[J]. Journal of Software, 2021, 32(2): 349-369.

[10] Wang Duo, Zhang Ming, Xu Yuchun, et al. Metric- based meta-learning model for few-shot fault diagnosis under multiple limited data conditions[J]. Mechanical Systems and Signal Processing, 2021, 155: 107510.

[11] Zhang Jinglin, Wang Yanbo, Zhu Kai, et al. Diagnosis of interturn short-circuit faults in permanent magnet synchronous motors based on few-shot learning under a federated learning framework[J]. IEEE Transactions on Industrial Informatics, 2021, 17(12): 8495-8504.

[12] 朱瑞金, 郝东光, 胡石峰. 小样本条件下基于卷积孪生网络的变压器故障诊断[J]. 电力系统及其自动化学报, 2021, 33(1): 64-69, 84.

Zhu Ruijin, Hao Dongguang, Hu Shifeng. Trans- former fault diagnosis based on convolutional Siamese network with small samples[J]. Proceedings of the CSU-EPSA, 2021, 33(1): 64-69, 84.

[13] 高昂, 郑建勇, 梅飞, 等. 基于三元组孪生网络的窃电检测算法[J]. 中国电机工程学报, 2022, 42(11): 3975-3985.

Gao Ang, Zheng Jianyong, Mei Fei, et al. Electricity theft detection algorithm based on triplet network[J]. Proceedings of the CSEE, 2022, 42(11): 3975-3985.

[14] 高浩寒, 潮群, 徐孜, 等. 小样本下基于孪生神经网络的柱塞泵故障诊断[J]. 北京航空航天大学学报, 2023, 49(1): 155-164.

Gao Haohan, Chao Qun, Xu Zi, et al. Piston pump fault di-agnosis based on siamese neural network with small samples[J]. Journal of Beijing University of Aeronautics and Astronautic, 2023, 49(1): 155-164.

[15] 刘鑫, 周凯锐, 何玉琳, 等. 基于度量的小样本分类方法研究综述[J]. 模式识别与人工智能, 2021, 34(10): 909-923.

Liu Xin, Zhou Kairui, He Yulin, et al. Survey of metric-based few-shot classification[J]. Pattern Recognition and Artificial Intelligence, 2021, 34(10): 909-923.

[16] Bhukya A, Koley C. Bi-long short-term memory networks for radio frequency based arrival time detection of partial discharge signals[J]. IEEE Transactions on Power Delivery, 2022, 37(3): 2024- 2031.

[17] Li Wenjing, Ren Tingting, Li Fang, et al. Contextual similarity-based multi- level second-order attention network for semi- supervised few-shot learning[J]. Neurocomputing, 2021, 461: 336-349.

[18] Li Zhuo, Luo Shaojuan, Chen Meiyun, et al. Infrared thermal imaging denoising method based on second- order channel attention mechanism[J]. Infrared Physics & Technology, 2021, 116: 103789.

[19] Zhu Yuanheng, Zhao Dongbin, He Haibo. Optimal feedback control of pedestrian flow in heterogeneous corridors[J]. IEEE Transactions on Automation Science and Engineering, 2021, 18(3): 1097-1108.

[20] Wang Yanxin, Yan Jing, Sun Qifeng, et al. A MobileNets convolutional neural network for GIS partial discharge pattern recognition in the ubiquitous power internet of things context: optimization, com- parison, and application[J]. IEEE Access, 7: 150226- 150236.

[21] 杨为, 朱太云, 张国宝, 等. 电力物联网下基于卷积神经网络和迁移学习的GIS局部放电模式识别分类方法研究[J]. 高压电器, 2020, 56(9): 20-25, 32.

Yang Wei, Zhu Taiyun, Zhang Guobao, et al. Research on partial discharge pattern recognition and classification in GIS based on convolutional neural network and transfer learning in power internet of things[J]. High Voltage Apparatus, 2020, 56(9): 20- 25, 32.

[22] 冯双, 陈佳宁, 汤奕, 等. 基于SPWVD图像和深度迁移学习的强迫振荡源定位方法[J]. 电力系统自动化, 2020, 44(17): 78-91.

Feng Shuang, Chen Jianing, Tang Yi, et al. Location method of forced oscillation source based on SPWVD image and deep transfer learning[J]. Automation of Electric Power Systems, 2020, 44(17): 78-91.

[23] 孙曙光, 李勤, 杜太行, 等. 基于一维卷积神经网络的低压万能式断路器附件故障诊断[J]. 电工技术学报, 2020, 35(12): 2562-2573.

Sun Shuguang, Li Qin, Du Taihang, et al. Fault diagnosis of accessories for the low voltage con- ventional circuit breaker based on one-dimensional convolutional neural network[J]. Transactions of China Electrotechnical Society, 2020, 35(12): 2562- 2573.

[24] 范贤浩, 刘捷丰, 张镱议, 等. 融合频域介电谱及支持向量机的变压器油浸纸绝缘老化状态评估[J]. 电工技术学报, 2021, 36(10): 2161-2168.

Fan Xianhao, Liu Jiefeng, Zhang Yiyi, et al. Aging evaluation of transformer oil-immersed insulation combining frequency domain spectroscopy and support vector machine[J]. Transactions of China Electrotechnical Society, 2021, 36(10): 2161-2168.

Few-Shot Partial Discharge Diagnosis for Gas-Insulated Switchgear Using a Novel Multi-Level Second-Order Attention Siamese Network

（State Key Laboratory of Electrical Insulation for Power Equipment Xi’an Jiaotong University Xi’an 710049 China）

Abstract Monitoring and diagnosing partial discharge in gas-insulated switchgear (GIS) is an effective means to evaluate its insulation state. Deep learning methods have shown excellent performance in GIS partial discharge diagnosis in recent years because they can automatically learn the nonlinear relationship between GIS partial discharge signals and fault types. However, the existing deep learning methods are all trained on the premise of massive data, and the model’s performance decreases severely when the amount of data decreases. Therefore, this paper proposes a novel Siamese network for diagnosing the few-shot partial discharge of GIS. The meta-training approach can achieve on-site small-sample GIS partial discharge (PD) diagnosis accurately and robustly.

Firstly, a multi-level second-order attention convolutional network is constructed to mine comprehensive feature information in partial discharge data and extract discriminative and representative features. Secondly, the metric learner is designed to learn the similarity of metric features. Then, the similarity metric compares or matches samples under the target task to achieve classification. Finally, a multi-level second-order attention Siamese network is designed for partial discharge diagnosis in GIS. Through the A-way K-shot training, the ability of model learning is endowed, and the learned meta-knowledge can be transferred to new tasks through fine-tuning, which solves the problem of small samples.

The experimental results show that the GIS partial discharge diagnosis accuracy of the method proposed in this paper reaches 93.76 % when each type of support sample is 5, which is 57.34 %, 45.53 %, 25.97 %, 65.91 %, and 33.97 % higher than direct training, FT, DATL, TCNN, and SVM, respectively. Simultaneously, box plots and scatter plots show that the method proposed in this paper has the most negligible dispersion, indicating that it is robust. Moreover, through the confusion matrix and t-distribution stochastic neighbor embedding, compared with traditional methods, this method proposed in this paper effectively solves the problem of small sample diagnosis and improves diagnostic performance under small samples. In addition, the proposed method has strong fault tolerance for unbalanced samples.

The following conclusions can be drawn: (1) The constructed Siamese network can realize high-precision and high-robust diagnosis of partial discharge in small-sample GIS on-site, especially for scenarios where UHV GIS samples are scarce. (2) The introduction of multi-scale convolution and second-order attention modules effectively improves the diagnostic accuracy of GIS partial discharge. (3) The training and testing of the method proposed in this paper are carried out under small samples, and the training is strictly in accordance with the A-way K-shot. K samples are randomly selected for each task from many training sets as the support set for model training, which has a strong tolerance for unbalanced samples.

keywords：Siamese network, multi-scale convolution, second-order attention module, few-shot, GIS partial discharge

王艳新男，1995年生，博士研究生，研究方向为电力设备在线检测与故障诊断技术。E-mail: xinxin199501@stu.xjtu.edu.cn

闫静男，1973年生，副教授，研究方向为新型开关电器理论与技术，电力设备监测与诊断。E-mail: yanjing@mail.xjtu.edu.cn（通信作者）