不均衡小样本下多特征优化选择的生命体触电故障识别方法

高 伟1,2 饶俊民1 全圣鑫1 郭谋发1,2

(1. 福州大学电气工程与自动化学院 福州 350108 2. 智能配电网装备福建省高校工程研究中心 福州 350108)

摘要 针对现有的剩余电流保护装置无法有效识别触电事故的问题,该文提出了一种不均衡小样本下多特征优化选择的生命体触电故障识别方法。首先通过变分自编码器(VAE)对实验收集到的生命体触电小样本数据进行增殖以实现正负样本均衡;然后在时域上提取能够反映波形动态变化特性的23个特征量,并利用高斯核Fisher判别分析(GKFDA)与最大信息系数(MIC)法从中选择最优表达特征组;最后,提出基于遗忘因子的在线顺序极限学习机(FOS-ELM)算法实现生命体触电行为的鉴别。实验结果表明,所提方法利用不均衡小样本触电数据集就可以训练出一个优秀的分类模型,诊断准确率可达98.75%,诊断时间仅为1.33 ms。其优良的性能结合在线增量式学习分类器设计,使得模型具备新知识学习能力,具有极好的工程应用前景。

关键词:剩余电流保护装置 生命体触电故障 多特征优化选择 基于遗忘因子的在线顺序极限学习机(FOS-ELM) 不均衡小样本

0 引言

在供电服务过程中,保护人民生命财产安全始终是最高目标。为了避免人身触电,剩余电流保护装置[1-3]可以通过检测剩余电流的大小快速地断开供电回路。然而,现行剩余电流保护装置是以剩余电流的幅值作为其动作的唯一依据,与是否为人体触电无直接关系。在正常运行时,线路或电器都会产生泄漏电流,每家每户或每种电器累积起来就比较大,一旦阈值整定不合理,剩余电流保护装置容易发生拒动或误动。因此在农村地区,为了确保供电可靠性,一些基层运维人员经常会把台区剩余电流保护装置退出,而一旦在户用漏电保护装置前端发生触电事故,将严重危及人身安全。

因此,将生命体触电故障从接地故障中识别出来,是有效解决此类事故的关键手段。文献[4]提出一种基于支持向量机-神经网络融合反馈的触电电流检测方法,有效地利用了各个模型的优点进行融合分析,提升了触电电流信号检测的准确性。文献[5]提出了基于长短期记忆神经网络的生命体触电电流检测方法,它首先对触电剩余电流信号进行小波分解降噪,再利用总剩余电流所表现出的特种波形信号并结合时域特征输入长短期记忆神经网络进行训练,构建生命体触电识别模型。文献[6]提出一种基于剩余电流固有模态能量特征的触电事故诊断模型,建立了一种以量子遗传模糊神经网络作为漏电故障模式分类归属的决策系统。

但上述研究的特征选择步骤只是简单地选择一类或几类特征,缺少对特征选择方法的研究。此外,对于常见的机器学习方法,其需要一定数量的样本对模型进行训练,从而保证模型的稳定性及算法的准确性。然而在进行接地故障实验时,从保护生命体角度出发,难以获得大量的实测触电样本,而非触电的接地故障(简称“常规接地故障”)较容易模拟。因此,能够获取的常规接地故障样本远大于触电故障样本,即会出现不同类别之间数据样本不平衡的问题,从而导致训练模型过拟合,预测结果偏向样本数较多的类别,整体辨识准确率降低。

针对上述问题,本文提出一种不均衡小样本下多特征优化选择的生命体触电识别方法,其主要特点如下:

1)通过变分自编码器(Variational Auto-Encoders, VAE)对生命体触电样本进行增殖,解决触电样本难以收集所造成的样本不均衡及样本量较小的问题。

2)利用高斯核Fisher判别分析法(Gaussian Kernel Fisher Discriminant Analysis, GKFDA)及最大信息系数法(Maximal Information Coefficient, MIC)对特征集进行自主筛选,从中挑选出最能表达样本特点的最优特征组。

3)使用基于遗忘因子的在线顺序极限学习机(Forgetting-factor-based Online Sequential Extreme Learning Machine, FOS-ELM)算法实现漏电类型的判断,通过遗忘因子增强新样本特征的敏感性,利用在线学习减少了存储和计算的开销。

1 实验平台搭建及波形特性分析

本实验设计了一个实验平台进行故障的模拟,实验平台如图1所示。启动按钮用于控制漏电流的产生;制动按钮可以在紧急状态下迅速切断漏电支路,从而保护实验人员的安全;可调限流电阻分为500 Ω、1 kΩ、2 kΩ、10 kΩ、20 kΩ共五个挡位,可根据不同的实验场景进行调节;输出端口通过导线连接实验对象来模拟触电或常规接地实验。

width=210.75,height=162.75

图1 实验平台

1—可调限流电阻 2—负载 3—制动按钮 4—启动按钮 5—输出端口

Fig.1 Experimental platform

本文分别选择金属导体、纯净水、浑浊水、干燥土地、湿润土地、干燥树枝、湿润树枝、干燥水泥地、湿润水泥地作为非生命体实验对象来模拟9种不同的常规接地故障实验;选择猪作为生命体实验对象,分别模拟其在干燥土地、湿润土地、金属笼3种不同场景下的触电故障实验,不同情况下的故障实验场景如图2所示。

width=204.75,height=246.75

图2 故障实验场景

Fig.2 Fault experimental scenes

本实验收集故障前一个周期及故障后两个周期的线路总剩余电流作为分析数据,用于后续算法的研究。常规接地故障及触电故障波形如图3所示。从图3中可以看出,发生常规接地故障与触电事故时,故障时刻的电流都会明显地增大;常规接地故障发生后,周期电流的峰值几乎相等;触电故障发生后,周期电流的峰值则会逐渐上升。这是因为两者在信号通路上存在本质的不同。皮肤是一种复杂的、黏弹性的生物复合结构,由表皮、真皮和真皮下或皮下组织组成,而皮肤表皮下主要由胶原蛋白和弹性蛋白的网状网络支撑,并且只有在活体组织中才能被观察到[7-8]。活体皮肤所独有的结构使得生命体触电故障后皮肤电阻呈现时变特性,其阻值会在短时间内急速下降然后趋于平稳。因此,发生触电故障后的几个周波内,电流会呈现一个周期递增的趋势[9],而常规接地回路的电阻一般不具备这种特性。

width=224.25,height=120

图3 故障电流波形

Fig.3 Waveforms of fault current

2 算法原理

本文将VAE样本增殖、最优特征筛选和在线学习分类器FOS-ELM进行了有机结合,使算法仅利用小样本的触电波形就可以获得一个较为理想的分类器,并通过在线自学习不断提升分类器的分类性能,其逻辑框架如图4所示。

width=447.75,height=185.25

图4 所提生命体触电故障识别方法的逻辑框架

Fig.4 A logical framework for biological electric-shock fault identification method

2.1 基于VAE的样本增殖

VAE[10]是一种常见的生成模型,它能够学习一个模型,使得输出数据的分布尽可能地逼近原始数据分布。其基本思路是将一堆真实样本通过编码器网络变换成一个理想的数据分布,然后将这个数据分布再传递给一个解码器网络,得到一堆生成样本。生成样本与真实样本足够接近的话,就训练出一个VAE模型。

VAE主要分为编码器(Encoder)和解码器(Decoder)两部分,Encoder过程是将原先的数据压缩为低维向量,Decoder则是将低维向量还原为原始数据。首先,将真实样本X输入Encoder来确定其后验分布,有

width=170.5,height=35.15 (1)

然而width=25.9,height=15是一个混合分布,这个积分计算起来非常困难,且计算复杂性随X的增加而呈指数上升,所以使用了变分推断,借助width=38.6,height=15来近似width=38.6,height=15。一般假定width=38.6,height=15服从高斯分布,即width=38.6,height=15width=66.8,height=15,然后,通过生成辅助变量width=40.9,height=15来引入隐变量Z,有

width=40.9,height=13.8 (2)

再用隐变量Z表示width=25.9,height=15,即Decoder过程,有

width=112.9,height=21.3 (3)

而对任何输入数据,应保证最后由隐变量转换回的输出数据与输入数据尽可能相等,由此引入最大似然估计,即

width=62.8,height=23.05(4)

最后,通过神经网络进行调参,从而达到生成样本与真实样本尽可能相似的效果。相比于其他生成模型,VAE有着更好的鲁棒性与可解释性,能够通过其进行数据样本增殖,使得训练样本量达到充分均衡。

2.2 特征集构建

针对生命体触电故障波形所独有的触电后周期电流峰值逐渐增大的特点,本文构建了特征集用于表征其波形特性。然而,考虑到不同实验条件下,所获实验数据会产生较大差异。因此,为增强算法的通用性,需要先通过归一化处理将实验数据统一映射到0~1区间上,有

width=74.95,height=29.95 (5)

式中,width=16.15,height=15为归一化后的数据集;width=18.45,height=15为原始数据集,由真实数据集与生成数据集构成;width=21.9,height=15width=21.3,height=15分别为原始数据集的最大值和最小值。

对归一化后的数据进行特征提取,构成特征集,要求这些特征能够从多方面反映不同样本的特点,包括能够反映触电故障动态变化的特征,如峰峰值、平均值、方差等;能够反映触电故障的敏感程度及稳定程度的特征,如波形因子、峰值因子、脉冲因子等;能够描述触电故障波形的不规则性及复杂性的特征[11-17],如最大最小值距离(Maximum-Minimum Distance, MMD)、Hurst指数、序列变化对数根和(Log Root Sum of Sequential Variations, LRSSV)及各类熵值。这些特征量的表达式见表1。

表1 特征集中各个特征的表达式

Tab.1 Characteristic expressions in feature set

特征表达式 峰峰值 平均值 绝对平均值 方根幅值 方差 方均根 峭度 偏度 波形因子 峰值因子 脉冲因子 裕度因子 余隙因子 Hjorth复杂性参数 MMD Hurst指数

(续)

特征表达式 LRSSV 近似熵 模糊熵 样本熵 条件熵 分布熵 排列熵

注:width=9.8,height=13.8中,width=9.8,height=13.8为第二周期波形,width=8.65,height=13.8为第一周期波形;时域特征中N为总信号长度;width=13.8,height=13.8中,width=13.8,height=13.8为信号的标准差,width=13.8,height=13.8为原始信号一阶差分信号的标准差,width=13.8,height=13.8为原始信号二阶差分的标准差;width=13.8,height=13.8中,width=15,height=13.8width=15,height=13.8分别为第k个窗口中x轴与y轴最大最小值之差,T为滑动窗口总数;width=13.8,height=13.8中,R为单个子区间上的极差,S为各子区间上的重标极差值,m为子区间长度,C为常数;width=13.8,height=13.8中,N为信号width=21.3,height=13.8的长度;width=13.8,height=13.8width=13.8,height=13.8中,先提取原信号波形的周期差分信号,然后再进行熵值的计算。

2.3 最优特征组选择

虽然深入的特征提取能够完整地表达原始数据的本质特征,但同时也增加了计算的复杂度。因此,本文提出一种GKFDA[18]方法对特征信息进行降维,以遴选出高表达度的特征。相比于一般的Fisher线性判别,GKFDA首先通过高斯核函数对原始数据样本进行非线性变换,映射到高维空间。

width=112.35,height=36.85 (6)

式中,width=36.85,height=18.45为向量x和向量width=12.1,height=13.8的欧式距离;width=8.65,height=13.25为带宽,控制高斯核函数的作用范围,其值越大,高斯核函数的局部影响范围就越大。接着,使用Fisher线性判别法[19]对映射后的每个特征样本进行计分。具体地,在高维空间中找到一个合适的投影轴,使得同类样本的类内离散度尽可能小,不同类样本的类间离散度尽可能大,从而得到样本的总类内离散度矩阵width=15,height=15和总类间离散度矩阵width=13.8,height=15,最终得到特征计分width=13.8,height=15

width=36.85,height=29.95 (7)

由上述计算得出的特征计分width=13.8,height=15可以很好地作为衡量特征好坏的标准。width=13.8,height=15值越大,表示每一类样本的类内离散度越小,不同类样本的类间离散度越大,即特征越具有区分度。

GKFDA可以评判特征的区分度,但却无法评判特征之间的冗余度。为此,本研究利用MIC[20]去除样本特征之间的冗余度,对特征量进行精简,从而达到在保证程序判断准确的情况下加快运算速度的目的。MIC计算主要分为三个步骤:①给定ij,对UV构成的散点图进行ij行网格化,并求出最大的互信息值;②对最大的互信息值进行归一化;③选择不同尺度下互信息的最大值作为MIC值,具体计算公式为

width=144,height=31.7 (8)

式中,B的大小通常设置为数据量的0.6次方左右;width=33.4,height=17.3UV之间的互信息,有

width=150.3,height=28.8 (9)

将从上述步骤中得到的每个特征的特征计分width=13.8,height=15和与其他特征之间的MIC均值构成最终计分为

width=141.15,height=44.35 (10)

式中,width=13.8,height=16.15为第i个特征的最终计分;width=13.8,height=16.15为第i个特征的特征计分;Nc为特征数;width=13.8,height=13.8为第i个特征量。width=13.8,height=16.15既考虑到了同一特征中不同样本之间的类内离散度和类间离散度,又考虑到了不同特征之间的冗余度,可以更全面地对特征进行有目的的选择。其数值越大,表示特征越好。通过对基本特征进行最终计分计算,从而选取出最优特征组。

2.4 FOS-ELM

极限学习机[21](Extreme Learning Machine, ELM)与传统的单隐藏层前馈神经网络训练算法不同,其输入层和隐含层的连接权值、隐含层的阈值可以随机设定,且设定完成后不用再调整,然后将全连接层的输出向量通过Softmax激活函数得到概率分布,并得到最终分类结果。ELM具有训练参数少、学习速度快、泛化能力强的优点。而在线顺序极限学习机[22-23](Online Sequential-Extreme Learning Machine, OS-ELM)相比于标准ELM引入了在线学习的机制,能够以逐一或逐块的方式进行增量学习训练样本,只有最新收集的数据需要参与学习,不需要保存和重新学习之前的训练样本[20]。OS-ELM学习过程的具体公式为

width=176.8,height=21.3 (11)

width=128.5,height=16.7 (12)

式中,width=16.15,height=15为隐含层输出矩阵;width=13.8,height=15为输出权重矩阵;width=13.25,height=15为样本标签矩阵;width=13.8,height=15为工作矩阵。然而,OS-ELM的模型参数是在之前模型参数的基础上进行更新的,对于新的样本特征不够敏感,不能最大程度地从新样本中提取信息,导致算法整体的学习速率较低。因此,将遗忘因子引入算法中,提出了FOS-ELM算法[24],能够根据数据样本到达的时间次序赋予每个样本不同的权值,以体现新旧样本的不同贡献,具体公式为

width=194.75,height=27.65 (13)

width=128.5,height=16.7 (14)

式中,width=36.85,height=15为遗忘因子。width=9.8,height=13.25的值越小,新样本的价值越大;width=9.8,height=13.25的值越大,旧样本的价值越大;当width=20.75,height=13.25时,就转换为一般的OS-ELM。

3 算例分析

3.1 数据增殖效果分析

通过上述实验获得400个常规接地故障数据及40个触电故障数据。为解决正负样本不平衡的问题,将40个触电故障数据输入VAE模型进行数据生成,可以获得360个触电故障生成数据。同时,使用生成对抗网络(Generative Adversarial Network, GAN)[25]对同样的数据集进行数据生成,将两种模型生成的波形进行对比,不同增殖算法的生成效果如图5所示。

width=185.25,height=126.75

图5 不同增殖算法的生成效果

Fig.5 Generation effect of different multiplication algorithms

从图5中可以看出,在生成波形的形态上,VAE生成波形很好地保留了真实波形中的特征,如触电时刻电流波形的突变和触电后波形的周期性增长,但生成波形又不完全等同于真实波形,其幅值及相位与真实波形相比都存在差异。因此,VAE生成波形在保留真实波形特征的同时能够增加训练样本的多样性。而GAN生成的波形畸变严重,且触电时刻波形的突变、触电后波形的周期性增长这些特性没有得到很好地保留。也就是说,VAE的波形生成效果要更好。

进一步从相关性角度对两种方法的生成效果进行评价。使用皮尔逊相关系数[26]作为评价指标,其值越接近1,表示两组数据的相关性越强。通过计算发现,真实波形与VAE生成波形的相关系数为0.957 6,与GAN生成波形的相关系数为0.869 7。这说明了VAE生成波形与真实波形要更为契合。

从生成原理上看,VAE通过变分推断得到训练数据的分布,而GAN直接使用生成器模拟数据的分布,用判别器来判断生成器模拟的分布的好坏,这导致GAN训练不稳定,生成样本质量较差[25]。相比之下,VAE的泛化能力更好,生成样本质量更高。

3.2 特征选择

将400个实测常规接地故障数据、40个实测触电故障数据及360个生成触电故障数据按照7:1的比例进行划分,即分为700个训练集数据及100个验证集数据。此外,另收集40个实测常规接地故障数据以及40个实测触电故障数据作为测试集数据。将上述训练集及验证集共800个数据通过式(5)进行归一化,然后再从归一化后的数据中提取表1中的23个特征量。利用GKFDA对所提取特征进行特征判别计分,所得width=13.8,height=15如图6所示。

width=212.25,height=123.75

图6 特征计分

Fig.6 Scores of characteristics

从图6可以看出,特征width=15,height=15width=15,height=15width=15,height=15width=15,height=15width=15,height=15width=15,height=15width=13.8,height=15width=10.95,height=15为区分度最大的8个特征量。然后计算这8个特征量中的两两特征之间的MIC值,即特征之间的冗余度。特征之间的MIC值越大,表示两特征之间的冗余度就越大,其结果如图7所示。从图7可以看出,各特征与自身之间的MIC值最大,为1,如图7中“☆”所示;而特征width=15,height=15与特征width=15,height=15的MIC值最小,为0.69,如图7中“▲”所示,说明两特征之间的相互独立性最强。

width=224.25,height=207

图7 MIC矩阵

Fig.7 Matrix diagram of MIC

将所得MIC值结合特征计分width=13.8,height=15通过式(10)分别计算得到上述8个特征量的特征总分width=13.8,height=15,如图8所示。从图8可以看出,由于特征冗余度的加入,所计算的8个特征量的分数发生了变化,从而导致特征排序发生变化,例如冗余度最小的特征width=15,height=15的特征总分排序相比于特征计分排序要更高。

width=210,height=123.75

图8 特征总分

Fig.8 Total scores of characteristics

将所得800个数据的特征量按照最终计分结果依次输入ELM训练并验证,其验证集准确率结果如图9所示。从图9中可以看出,当依次输入前5个特征时,验证集的准确率逐渐上升,而当继续增加输入特征时,验证集的准确率反而下降。从上述分析可知,使用余隙因子、Hjorth复杂性参数、排列熵、MMD、LRSSV这五个参数作为判别生命体触电故障的最优特征组。

width=212.25,height=155.25

图9 不同特征数的性能差异

Fig.9 Performance differences for different feature numbers

3.3 超参数选择

合理选择隐层神经元个数N′及遗忘因子width=9.8,height=13.25,能够使FOS-ELM在最少的学习次数下达到更高、更稳定的准确率。将800个最优特征量数据输入分类器中,通过试错法不断改变N′值,当N′=19时,验证集的准确率达到最优,为94.5%(如图10所示)。

width=213,height=114.75

图10 不同N′时分类器准确率变化

Fig.10 Variation of classifier accuracy at different N′

紧接着,固定N′=19,让width=9.8,height=13.25在0~1之间变化,以获得最优准确率。通过研究发现,width=9.8,height=13.25>0.5时,会遗忘算法之前学习的内容,导致准确率稳定在一个较低水平。因此,图11列出width=9.8,height=13.25在0.5~1之间变化时,最高准确率和达到最高准确率时的学习次数值。

可以看出,width=9.8,height=13.25较小时,分类器对新样本较为敏感,经过较少的学习次数就可以达到最高准确率,但同时也会快速遗忘旧样本,导致准确率低。诊断准确率随着遗忘因子的增大而不断提升,在width=9.8,height=13.25=0.98时达到最高。继续增大width=9.8,height=13.25,准确率已基本保持不变。此外,在此遗忘因子下,FOS-ELM的在线学习次数相对较少。为此,本研究所构建的分类器的N′width=9.8,height=13.25分别确定为19和0.98。

width=216,height=153.75

图11 不同λ时分类器的性能

Fig.11 Performance of the classifier at different λ

3.4 实验结果分析

首先从700个训练集数据中选择300个样本对FOS-ELM进行初始训练,剩下的400个样本平均分成100组,然后每组样本进行一次在线学习,共学习100次,每次学习都使用验证集进行验证。从验证过程上看,FOS-ELM通过54次在线学习就能够到达稳定在97%的判断准确率。最后使用测试集对训练好的模型进行测试,模型准确率可达98.75%,其中40个常规接地故障样本全部判断正确,准确率为100%,40个实测触电故障样本中仅1个判断错误,准确率为97.5%。从时间角度分析,初始样本训练时间为10.3 ms,在线学习平均训练时间为1.378 ms,平均测试时间为1.33 ms。也就是说,FOS-ELM拥有较高的学习效率,其对于新的样本特征更加敏感,能最大程度地从新样本中提取信息,在更少的样本数下更快到达更高的准确率。

3.5 算法必要性分析

一般而言,由于场景的复杂性和危险性,使得实测触电样本的获取存在较大的难度。小样本问题会使得训练模型精度低、有效性差,而样本不均衡又会让模型的预测结果产生偏差,对少数类样本辨识准确率差。因此,通过引入VAE对少数类样本进行样本增强,提高模型的有效性。通过数据分析,可以从生命体触电故障波形的变化形态中提取出各种指标特征,优质特征的加入能够在一定程度上提高分类器的诊断精度,但不良特征及冗余特征的引入,不仅增加了算法的运行时间,还可能使分类器的诊断精度降低。因此,将GKFDA与MIC相结合对各个特征进行特征计分,并通过计分结果直观、自主地选择最优表达特征组,可以提升特征质量,并体现出特征选择的规则性。

此外,大部分文献的研究工作是针对有限的实验环境来获取触电数据以训练一个触电事故分类器。真实环境下的触电场景较为丰富,生命体触电时的穿具、挣脱行为会对触电波形产生较大的影响,使得传统的离线型分类器难以具备适应性。OS-ELM具备在线学习机制,可以针对新样本进行在线更新,而无需保存历史样本。而引入遗忘因子构成FOS-ELM,目标是进一步解决OS-ELM学习速度较慢的缺点,能够以更高的学习效率快速适应环境样本的变化。图12列出了样本不均衡、无特征选择、无遗忘因子及无在线学习情况下的实验结果。

width=225.75,height=176.25

图12 所提算法消融性实验对比

Fig.12 Ablative test comparison of the proposed algorithm

在图12中,不采用VAE样本增强且常规接地故障样本与触电故障样本比例为10:1时(图12“width=8.3,height=8.05”标识曲线),严重的样本不平衡会导致分类器的初始分类准确率较低。在不断地吸收新的触电故障样本,并经过持续地学习之后,模型准确率也会不断提升。倘若将所有23个特征不加选择地直接输入FOS-ELM中进行分类(图12“width=6.85,height=8.85”标识曲线),其准确率和学习效率远不如经特征优化选择的结果。不使用遗忘因子时(图12“width=5.75,height=9.55”标识曲线),OS-ELM需要多学习30次才能到达较高准确率。如果不使用在线学习机制(图12“width=8.4,height=9.2”标识曲线),ELM离线学习的准确率及稳定性都要更差。上述结果说明所使用的方法组合具备一定的必要性及优势。

3.6 误判样本分析及改善措施

从保护生命安全角度出发,不应将生命体触电故障误判为常规接地故障。从前述诊断结果可知,有17个触电样本被误判为常规接地故障样本。对这些样本的波形形态进一步分析可以发现(图13展示了两个典型的误判样本),这些波形存在触电的特征,但是波形发生了畸变,原因是在实验时,实验对象出现挣扎反抗,导致导线与皮肤接触不良或断续接触。在实际触电中,当人体试图去快速摆脱带电体时,也同样会出现类似的波形。

width=222,height=83.25

图13 误判样本波形

Fig.13 Waveforms of misjudged samples

在保证常规接地故障判断准确率的情况下,对ELM全连接层输出向量特性进行研究,期待可以对算法进行完善,分析结果如图14所示。可以发现,能够被正确诊断的常规接地故障样本的输出向量稳定分布在[-1.5, -0.5]区间,触电故障样本则稳定分布在[0, 1.5]区间,而17个误判样本的分布较为离散。因此,如果以[-1.5, -0.5]为阈值对常规接地故障输出结果进行约束,则可以将其中17个生命体触电误判样本减少为3个,进而减少人身伤亡事故的发生。但是这仅仅是一种较为简单的分析,随着实验场景的丰富,特异性畸变样本的变化可能更加复杂,深层次的特征提取有待于未来进行更为深入的研究。

width=173.25,height=120

图14 用箱型图表示的不同样本全连接层输出向量的分布

Fig.14 Distribution of full-connection layer output vectors of different samples represented by box diagram

4 对比分析

到目前为止,对生命体触电事故辨识的研究文献较少,文献[27-28]为近年来国内主流刊物研究同类型问题的两篇重要文献。文献[27]应用小波包变换从故障前一个周期和故障后一个周期的剩余电流中提取小波包能量谱特征向量,然后通过量子神经网络实现了触电故障类型的有效识别。文献[28]通过Mallat算法对总剩余电流信号进行滤波处理,再提取故障后三个周期的三个峰峰值作为特征向量,然后利用BP神经网络进行触电故障类型识别。按照每种算法的需求对相同的故障样本进行截取,在同一个计算平台(Intel(R) Core(TM) i7-7 700HQ CPU@(2.80 GHz+2.81GHz),内存16.0 GB,执行软件Matlab)下进行建模和测试,它们的对比结果见表2。检测时间为触电时间发生至识别出故障的时间,其包括波形的收集时间和算法的执行时间。从表2中可以看出,尽管文献[27]只需收集触电后一个周期的波形,但是其需要使用复杂的算法来提取高质量的特征才能达到较高的准确率,导致算法执行时间高达147.59 ms。由于触电后三个周期波形所蕴含的差异性信息较为显著,文献[28]仅使用简单的BP神经网络就可以获得较好的结果,但是收集波形的时间远大于诊断时间。本文使用触电后两个周期波形进行判断,既能保证波形信息量,减少算法的运行时间,同时又能够降低波形的采集时间,无论是诊断准确率还是检测时间均是三种方法中最优秀的。

表2 三种同类方法对比结果

Tab.2 Comparison results of three similar methods

参数文献[27]文献[28]本文所提方法 总周期数/故障后周期数2/13/32/2 准确率(%)9597.598.75 检测时间/ms167.5963.01741.33

5 结论

本文提出了一种不均衡小样本下多特征优化选择的生命体触电故障识别方法,解决了实测触电故障数据获取困难以及缺少特征选择规则的问题,并且能够通过对新获取的触电样本进行在线学习,提升模型在实际场景下的判别能力。本文的特点是:

1)在方法上,VAE能够对少量生命体触电样本进行增强处理,达到正负样本均衡;将GKFDA与MIC相结合制定能自主地选择最优表达特征组的规则;应用FOS-ELM提升模型的在线自学习能力。

2)本文收集了12种场景的常规接地故障和生命体触电故障实验数据用于所提算法的验证。结果表明,所提算法对于实际样本的诊断准确率为98.75%,其中常规接地故障准确率为100%,平均在线学习时间为1.378 ms,诊断时间仅为1.33 ms。

3)在所提算法中,VAE样本增强及特征组优选可以在计算上实现。而最后所选择的8个特征量和FOS-ELM计算公式及程序都相对简单,适合在嵌入式终端部署应用。在拥有初始少量生命体触电样本下,模型就能获得相对理想的诊断准确率,并且可以在应用中进行新知识的学习而无需保存历史样本,具备较高的学习效率、较低的内存资源占用量和强大的应用价值。

参考文献

[1] Mitolo M. Shock hazard in the presence of protective residual-current devices[J]. IEEE Transactions on Industry Applications, 2010, 46(4): 1552-1557.

[2] 韩晓慧, 杜松怀, 苏娟, 等. 触电信号暂态特征提取及故障类型识别方法[J]. 电网技术, 2016, 40(11): 3591-3596. Han Xiaohui, Du Songhuai, Su Juan, et al. Fault transient feature extraction and fault type identificationfor electrical shock signals[J]. Power System Technology, 2016, 40(11): 3591-3596.

[3] 关海鸥, 杜松怀, 苏娟, 等. 一种触电信号的自动快速检测模型[J]. 电网技术, 2013, 37(8): 2328-2335.Guan Haiou, Du Songhuai, Su Juan, et al. An automatic and quick detection model of electric shock signals[J]. Power System Technology, 2013, 37(8): 2328-2335.

[4] 刘永梅, 杜松怀, 盛万兴. 基于SVM-神经网络融合反馈的触电电流检测方法[J]. 电网技术, 2020, 44(5): 1972-1977. Liu Yongmei, Du Songhuai, Sheng Wanxing. Prediction method of electric shock current based on SVM and neural network fusion feedback[J]. Power System Technology, 2020, 44(5): 1972-1977.

[5] 赵启承, 虞雁凌. 基于长短期记忆神经网络的生命体触电电流检测[J]. 传感器与微系统, 2022, 41(1): 142-145. Zhao Qicheng, Yu Yanling. Detection of electric shock current of living body based on long-term and short-term memory neural network[J]. Transducer and Microsystem Technologies, 2022, 41(1): 142-145.

[6] 王金丽, 刘永梅, 杜松怀, 等. 基于剩余电流固有模态能量特征的生物触电故障诊断模型[J]. 农业工程学报, 2016, 32(21): 202-208. Wang Jinli, Liu Yongmei, Du Songhuai, et al. Bioelectric shock fault diagnosis model based on residual current natural mode energy characteristics[J]. Transactions of the Chinese Society of Agricultural Engineering, 2016, 32(21): 202-208.

[7] Wei J C J, Edwards G A, Martin D J, et al. Allometric scaling of skin thickness, elasticity, viscoelasticity to mass for micro-medical device translation: from mice, rats, rabbits, pigs to humans[J]. Scientific Reports, 2017, 7: 15885.

[8] Benias P C, Wells R G, Sackey-Aboagye B, et al. Structure and distribution of an unrecognized inter-stitium in human tissues[J]. Scientific Reports, 2018, 8: 4947.

[9] Pritchard G. A new model for human body impedance[J]. IEEE Transactions on Power Delivery, 2022, 37(2): 955-959.

[10] 黄冬梅, 吴志浩, 孙园, 等. 基于VAE预处理和RP-2D CNN的不平衡负荷数据类型辨识方法[J]. 电力系统及其自动化学报, 2022, 34(10): 66-72, 80. Huang Dongmei, Wu Zhihao, Sun Yuan, et al. Data type identification method for imbalanced load based on VAE preprocessing and RP-2D CNN[J]. Proceedings of the CSU-EPSA, 2022, 34(10): 66-72, 80.

[11] Aboalayon K, Faezipour M, Almuhammadi W, et al. Sleep stage classification using EEG signal analysis: a comprehensive survey and new investigation[J]. Entropy, 2016, 18(9): 272.

[12] 王毅, 刘黎明, 李松浓, 等. 基于经验小波变换复合熵值与特征融合的故障电弧检测[J]. 电网技术, 2023, 47(5): 1912-1919. Wang Yi, Liu Liming, Li Songnong, et al. Arc fault detection based on empirical wavelet transform composite entropy and feature fusion[J]. Power System Technology, 2023, 47(5): 1912-1919.

[13] 刘树鑫, 宋健, 刘洋, 等. 交流接触器触头系统运动分析及故障诊断研究[J]. 电工技术学报, 2021, 36(增刊2): 477-486. Liu Shuxin, Song Jian, Liu Yang, et al. Research on motion analysis and fault diagnosis of contact system ofAC contactor[J]. Transactions of China Electrotechnical Society, 2021, 36(S2): 477-486.

[14] 崔芮华, 张振, 佟德栓, 等. 基于改进经验小波变换多特征融合的航空交流串联电弧故障检测[J]. 电工技术学报, 2022, 37(12): 3148-3161. Cui Ruihua, Zhang Zhen, Tong Deshuan, et al. Aviation AC series arc fault detection based on improve empirical wavelet transform multi-feature fusion[J]. Transactions of China Electrotechnical Society, 2022, 37(12): 3148-3161.

[15] 张立石, 梁得亮, 刘桦, 等. 基于小波变换与逻辑斯蒂回归的混合式配电变压器故障辨识[J]. 电工技术学报, 2021, 36(增刊2): 467-476. Zhang Lishi, Liang Deliang, Liu Hua, et al. Fault identification of hybrid distribution transformer based on wavelet transform and logistic regression[J]. Transactions of China Electrotechnical Society, 2021, 36(S2): 467-476.

[16] 崔芮华, 李泽, 佟德栓. 基于三维熵距和熵空间的航空电弧故障检测与分类技术[J]. 电工技术学报, 2021, 36(4): 869-880. Cui Ruihua, Li Ze, Tong Deshuan. Arc fault detection and classification based on three-dimensional entropy distance and entropy space in aviation power system[J]. Transactions of China Electrotechnical Society, 2021, 36(4): 869-880.

[17] 王俊, 罗嘉玮, 冯宗琮, 等. 基于近似熵的中性点不接地系统故障区段定位[J]. 电工技术, 2021(3): 33-36. Wang Jun, Luo Jiawei, Feng Zongcong, et al. Fault section location of neutral ungrounded system based on approximate entropy[J]. Electric Engineering, 2021(3): 33-36.

[18] 王来, 樊重俊, 杨云鹏, 等. 面向不平衡数据分类的KFDA-Boosting算法[J]. 计算机应用研究, 2019, 36(3): 807-811. Wang Lai, Fan Chongjun, Yang Yunpeng, et al. KFDA-Boosting algorithm oriented to imbalanced data classification[J]. Application Research of Computers, 2019, 36(3): 807-811.

[19] 徐华电, 苏建徽, 张军军, 等. 基于谐波特征与核Fisher判别分析的孤岛检测方法研究[J]. 电工技术学报, 2016, 31(3): 25-30. Xu Huadian, Su Jianhui, Zhang Junjun, et al. Research on islanding detection based on harmonic char-acteristics and kernel Fisher discriminant analysis[J]. Transactions of China Electrotechnical Society, 2016, 31(3): 25-30.

[20] 李滨, 高枫. 基于虚拟相似日与DA-LSTPNet的地区电网短期负荷预测[J]. 电力系统自动化, 2021, 45(22): 55-64. Li Bin, Gao Feng. Short-term load forecasting for regional power grid based on virtual similar days and dual-stage attention-based long and short time pattern network[J]. Automation of Electric Power Systems, 2021, 45(22): 55-64.

[21] 吉兴全, 张朔, 张玉敏, 等. 基于IELM算法的配电网故障区段定位[J]. 电力系统自动化, 2021, 45(22): 157-166. Ji Xingquan, Zhang Shuo, Zhang Yumin, et al. Fault section location for distribution network based on improved electromagnetism-like mechanism algori-thm[J]. Automation of Electric Power Systems, 2021, 45(22): 157-166.

[22] 张秦梫, 宋辉, 姜勇, 等. 基于OS-ELM的变压器局部放电模式识别[J]. 高电压技术, 2018, 44(4): 1122-1130. Zhang Qinqin, Song Hui, Jiang Yong, et al. Partial discharge pattern recognition of transformer based on OS-ELM[J]. High Voltage Engineering, 2018, 44(4): 1122-1130.

[23] 李扬, 李国庆, 顾雪平, 等. 基于集成OS-ELM的暂态稳定评估方法[J]. 电工技术学报, 2015, 30(14): 412-418. Li Yang, Li Guoqing, Gu Xueping, et al. Transient stability assessment of power systems based on ensemble OS-ELM[J]. Transactions of China Electrotechnical Society, 2015, 30(14): 412-418.

[24] 郭威, 于建江, 汤克明, 等. 动态数据流分析的在线超限学习算法综述[J]. 计算机科学, 2019, 46(4): 1-7. Guo Wei, Yu Jianjiang, Tang Keming, et al. Survey of online sequential extreme learning algorithms for dynamic data stream analysis[J]. Computer Science, 2019, 46(4): 1-7.

[25] 郭亮, 王祥业, 姜文聪. 基于生成对抗网络的注入电流式热声成像逆问题研究[J]. 电工技术学报, 2021, 36(增刊1): 22-30. Guo Liang, Wang Xiangye, Jiang Wencong. The study on the inverse problem of applied current thermo-acoustic imaging based on generative adversarial network[J]. Transactions of China Electrotechnical Society, 2021, 36(S1): 22-30.

[26] 徐佳宁, 倪裕隆, 朱春波. 基于改进支持向量回归的锂电池剩余寿命预测[J]. 电工技术学报, 2021, 36(17): 3693-3704. Xu Jianing, Ni Yulong, Zhu Chunbo. Remaining useful life prediction for lithium-ion batteries based on improved support vector regression[J]. Transactions of China Electrotechnical Society, 2021, 36(17): 3693-3704.

[27] 关海鸥, 刘梦, 李春兰, 等. 基于小波包变换和量子神经网络的触电故障类型识别模型[J]. 农业工程学报, 2018, 34(5): 183-190. Guan Haiou, Liu Meng, Li Chunlan, et al. Classification recognition model of electric shock fault based on wavelet packet transformation and quantum neural network[J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(5): 183-190.

[28] 蔡智萍, 郭谋发, 魏正峰. 基于BP神经网络的低压配电网生命体触电识别方法研究[J]. 电网技术, 2022, 46(4): 1614-1623. Cai Zhiping, Guo Moufa, Wei Zhengfeng. Research on recognition method of living body shock in low-voltage distribution network based on BP neural network[J]. Power System Technology, 2022, 46(4): 1614-1623.

Biological Electric-Shock Fault Identification Method Based on Multi-Feature Optimization Selection under Unbalanced Small Sample

Gao Wei1,2 Rao Junmin1 Quan Shengxin1 Guo Moufa1,2

(1. College of Electrical Engineering and Automation Fuzhou University Fuzhou 350108 China 2. Fujian Province University Engineering Research Center of Smart Distribution Grid Equipment Fuzhou 350108 China)

Abstract The existing residual current device (RCD) operates based on the amplitude of the residual current, but if the threshold is not reasonably set, the RCD is prone to reject or misoperate. Therefore, identifying biological electric-shock faults from grounding faults is a crucial approach. Current research only selects one or several features without following proper feature selection rules. Furthermore, machine learning methods require a certain number of samples to train the model to ensure algorithm accuracy and stability. However, obtaining a large number of biological electric-shock samples is challenging during actual experiments, and the algorithm model cannot learn the waveform in real settings.

To solve the above problems, a biological electric-shock fault identification method based on multi-feature optimization selection under unbalanced small samples is proposed. Firstly, variational auto-encoders (VAE) is adopted to multiply the electric-shock small sample data collected by experiments to achieve positive and negative sample balance. Due to the complexity and danger of the scenes, it is difficult to obtain the actual electric-shock samples. The problem of small samples will lead to low accuracy and poor effectiveness of the training model, and the unbalanced samples will lead to deviations in the prediction results of the model, resulting in poor identification accuracy of a few types of samples. Therefore, a few samples are enhanced by introducing VAE to improve the effectiveness of the model. Secondly, 23 features which can reflect the dynamic characteristics of the waveform are extracted in time domain, the optimal expression feature group is selected from them by Gaussian kernel Fisher discriminant analysis (GKFDA) and maximal information coefficient (MIC). Through data analysis, various index features can be extracted from the changing forms of biological electric-shock waveforms. The addition of high-quality features will improve the diagnostic accuracy of the classifier to a certain extent, but the introduction of bad and redundant features will increase the running time of the algorithm and reduce the diagnostic accuracy of the classifier. Therefore, GKFDA and MIC are combined to perform feature scoring for each feature, and the optimal expression feature group is selected intuitively and independently based on the scoring results, which could improve the feature quality and reflect the regularity of feature selection. Finally, a forgetting-factor-based online sequential extreme learning machine (FOS-ELM) algorithm is investigated to identify the electric-shock behavior. There are abundant electric-shock scenes in the real environments. The escape behaviors of living objects during electric shock will have a great influence on the electric-shock waveform, which makes it difficult for the traditional off-line classifier to have adaptability. The online sequential extreme learning machine (OS-ELM) has an online learning mechanism that allows online updates for new samples without the historical data. The forgetting factor is introduced to form FOS-ELM, aiming to further solve the shortcoming of slow learning speed of OS-ELM, so that it can quickly adapt to changes of environmental samples with higher learning efficiency.

The experimental data of conventional grounding fault and biological electric-shock fault in 12 scenes were collected for the verification of the proposed algorithm. The results show that the diagnosis accuracy of the proposed model can reach 98.75%, among which all 40 conventional grounding fault samples are correctly judged with an accuracy of 100%, while only 1 of 40 actual biological electric-shock fault samples is wrong with an accuracy of 97.5%. From the perspective of time, the average online learning time is 1.378 ms, and the average diagnosis time is only 1.33 ms.

keywords:Residual current protection device, biological electric-shock fault, multi-feature optimization selection, forgetting-factor-based online sequential extreme learning machine (FOS-ELM), unbalanced small sample

DOI:10.19595/j.cnki.1000-6753.tces.230076

中图分类号:TM773

福建省自然科学基金资助项目(2021J01633)。

收稿日期 2023-01-18

改稿日期 2023-05-29

作者简介

高 伟 男,1983年出生,博士,副教授,研究方向为电力系统状态感知及故障抑制。E-mail:gaowei0202@fzu.edu(通信作者)

饶俊民 男,1999年出生,硕士研究生,研究方向为低压配电网电弧故障检测以及低压配电网生命体触电故障检测。E-mail:1986070209@qq.com

(编辑 赫 蕾)