基于改进YOLOv3的电力设备红外目标检测模型

摘要红外图像检测技术因具有非接触、快速等优点，被广泛应用于电力设备的监测与诊断中，而对设备快速精确地检测定位是实现自动检测与诊断的前提。与普通目标的可见光图像相比，电力设备的红外图像可能存在背景复杂、对比度低、目标特征相近、长宽比偏大等特征，采用原始的YOLOv3模型难以精确定位到目标。针对此问题，该文对YOLOv3模型进行改进：在其骨干网络中引入跨阶段局部模块；将路径聚合网络融合到原模型的特征金字塔结构中；加入马赛克（Mosaic）数据增强技术和Complete-IoU（CIoU）损失函数。将改进后的模型在四类具有相似波纹外观结构的电力设备红外图像数据集上进行训练测试，每类的检测精度均能达到92%以上。最后，将该文方法的测试结果与其他三个主流目标检测模型进行对比评估。结果表明：不同阈值下，该文提出的改进模型获得的平均精度均值优于Faster R-CNN、SSD和YOLOv3模型。改进后的YOLOv3模型尽管在检测速度上相比原YOLOv3模型有所牺牲，但仍明显高于其他两种模型。对比结果进一步验证了所提模型的有效性。

0 引言

电力设备的安全稳定运行是确保电网可靠供电的关键。通过及时检测电力设备的运行状态，能够预防由设备缺陷或故障引起的电网事故发生。红外热成像技术提供了一种非接触的检测方式来获取电力设备的热状态信息，使电力设备的状态检测能在不断电的情况下进行，被广泛应用于电力设备的带电检测中。不同场景下电力设备的红外图像如图1所示，红外图像能够显示设备的温度分布和范围，并通过不同等级的色调来表示设备不同部位的温度[1]。但目前对电力设备红外图像数据的分析与诊断仍需依赖经验丰富的电力工程师[2]，这就消耗了大量的人力和时间成本，极大地降低了电力设备状态检测与评估的效率。因此，研究更快、更准确的电力设备状态自动检测方法已成为近年的热点课题[1-3]，而对设备快速精确地定位是实现自动检测与诊断的前提和关键[4]。

针对电力设备图像目标定位研究，一些传统的目标检测方法[5-8]通常分三个阶段：①利用选择性搜索方法在给定的图像上选择候选区域；②利用构造的特征描述符提取图像特征；③使用分类器对特征进行分类。文献[6]先使用基于分水岭变换的数字图像处理算法分割出避雷器区域，再用模糊神经网络对分割数据进行训练分类。分水岭算法对图像中噪声和不均匀光照具有较强的鲁棒性，但该方法需要待检测设备位于图像中间才能被正确检测，因此在应用中具有一定的局限性。文献[7]利用半局部算子提取绝缘子图像的纹理特征，再将新定义的凸能量函数加入主动轮廓模型，进一步提取出绝缘子轮廓，但该方法计算量大且模型不能自动初始化。这类传统方法的特征提取过程往往需要人工干预来获取与目标特征相关的原始图像信息[9]，且通常需要对网络进行单独训练以进行多类目标的定位，因此不能满足电网快速发展的需求[10]。

近年来，基于深度学习的目标检测研究已成为电力设备视觉检测的研究热点。其中，卷积神经网络（Convolutional Neural Network, CNN）是深度学习中最重要的模型之一[11]。自从AlexNet网络[12]在ImageNet图像库上实现了巨大突破后，CNN获得了广泛的关注[13]。文献[14]提出了一种新颖的带级联结构的深度CNN，解决了绝缘子定位和缺陷检测的两级问题。该级联结构的上级网络结合了VGG网络（visual geometry group network）[15]和区域建议网络来确定绝缘子的区域，能够快速定位绝缘子的位置。文献[16]将多尺度特征图与相对位置特征引入Faster R-CNN[17]模型中，用于检测变压器的六类组件，获得了较高的识别精度。文献[18]优先考虑目标各部分之间的方向一致性，提出了一种基于任意方向定位的深度卷积神经网络，用来检测红外图像下四类变电设备的小部件。文献[19]在LeNet_5[20]模型中引入随机配置网络分类器，并添加反馈机制，提高了绝缘子检测的精度。文献[21]首次提出了YOLOv3的检测模型，其单阶段的检测算法在检测速度和精度上均表现出了很大优势[22]，在不同研究领域得到了推广和应用[23-26]。

与普通目标的可见光图像相比，变电站电力设备的红外图像存在以下特征：①图像背景复杂，目标受干扰、遮挡情况较多；②红外热图像可能存在温度过于集中的部分，导致图像对比度低；③设备外观轮廓特征相近，且多为大尺度目标，长宽比偏大。然而，研究发现原始YOLOv3模型存在几个缺陷：对中等或大尺寸的目标物体检测效果较差，容易出现误检、漏检或重复检测[21]的问题；对重叠目标难以区分、对目标位置定位不够精确等问题[27]。针对以上问题，本研究对YOLOv3的网络结构进行了两处改进：在YOLOv3骨干网络DarkNet53的每个残差块中加上跨阶段局部模块（Cross Stage Partial，CSP）[28]，CSP模块能有效提升卷积神经网络的学习能力，减少计算量，在轻量化的同时进一步提高模型的分类精度；在原模型的特征金字塔网络（Feature Pyramid Networks，FPN）[29]后加入自底向上的特征融合模块路径聚合网络（Path Aggregation Network，PAN）[30]，PAN是对FPN的补充，它能较好地保存浅层特征信息，自底向上传递强定位特征。FPN与PAN的组合模块能从不同的主干层对不同的检测层进行参数聚合，进一步提高检测模型的特征提取能力。网络深度的加深以及结构的复杂化使改进后的模型在检测速度上相较原模型有所降低。除网络结构上的改进外，本文还在模型的输入端增加了马赛克（Mosaic）技术，以增强模型的训练效果；CIoU损失函数被用作新模型的定位损失，能让模型在边框回归时取得更好的收敛速度和精度。最后，通过实验及对比评估进一步论证了提出模型的有效性与优势。

1 改进YOLOv3的红外目标检测模型

本文提出的改进方案从原始YOLOv3模型的输入端、骨干网络、颈部和检测头四个方面进行优化：输入端引入Mosaic数据增强处理；在骨干网络DarkNet53中引入CSP模块，并将Leaky_ReLU（LReLU）激活函数[31]替换为Mish激活函数[32]，新骨干网络为CSPDarkNet53；在颈部的空间金字塔池化（Spatial Pyramid Pooling，SPP）[33]模块与FPN后融入PAN结构；检测头部分为YOLO_Head模块，这部分主要通过边框回归和非极大值抑制确定目标边界框的最终位置，原始回归损失函数方均误差（Mean Square Error，MSE）被替换为CIoU损失[34]。改进后的模型架构如图2所示。

1.1 Mosaic数据增强

新模型在输入端加入了Mosaic数据增强处理，它是CutMix[35]数据增强方式的改进版。CutMix每次处理两张图像，首先将一张图像的部分区域剪切掉并不填充零像素，然后随机填充数据集中其他图像的区域像素值。Mosaic数据增强则是每次读取四张图像，通过随机缩放、裁剪及排布、色域变化中的一种或多种方法把四张图拼成一张，如图3所示。然后将拼接好的图像和调整后的标签传入神经网络学习。

输入端的Mosaic处理，丰富了被检测目标的背景，增加了数据集的多样性。特别是随机缩放进一步增加了不同尺度的目标，增强了网络的鲁棒性。此外，模型一次可以计算四张图片数据，因而具有更低的训练门槛，在GPU资源有限的条件下也能获得较好的结果。

1.2 CSPDarkNet53模块

CSPDarkNet53是在YOLOv3主干网络DarkNet53的基础上，借鉴2019年CSPNet的经验[28]，产生的优化骨干网络。从图2可以看出，CSPDarkNet53主要由5个CSP模块组成。其中，CSP模块是将DarkNet53的残差模块按照CSPNet结构改进所产生的，它由5个卷积模块和n个Res_unit的叠加模块组成。

文献[28]指出，神经网络推理计算量过大的问题是由于网络优化中的梯度信息重复导致的。而CSPNet就是从网络结构设计的角度来解决神经网络在推理过程中需要较大计算量的问题，它将基础层的特征映射划分为两个部分，然后通过跨阶段层次结构将它们合并。其实质是将梯度的变化集成到特征图中，通过分割梯度流，使梯度流通过不同的网络路径传播。因此，带有CSPNet结构的CSPDarkNet53网络有三大优点：①增强CNN的学习能力，能够在网络轻量化的同时保持准确性；②提升每个计算单元的利用率，降低计算瓶颈；③降低网络的内存占用。

1.2.2 Mish激活函数

CSPDarkNet53将原骨干网络的LReLU激活函数替换为Mish函数，如式（1）所示。与LReLU函数相比，Mish函数有助于保持更小的负值，从而稳定网络的梯度流；其平滑特性能有效地允许信息深入地渗透到神经网络中，从而获得更好的准确性和泛化性能。因此，随着网络层数的增加，使用Mish函数的网络表现出了比使用LReLU函数的网络更高的测试精度，这对于复杂网络的优化更加有效[36]。

1.3 SPP与FPN+PAN模块

本文模型的颈部由SPP与FPN+PAN组合模块构成。SPP用于提升模型的感受野，通过池化特征图中不同分辨率的特征挖掘出更重要的目标信息。FPN与PAN是两种特征融合技巧，它们在本文模型中的组合结构如图4所示。

一般地，低层特征图的语义信息较少，但是目标位置信息丰富；高层特征图的语义信息比较丰富，而目标位置则比较粗略。原模型的FPN模块是通过自顶向下的上采样方式传递目标的强语义特征，但是对目标的定位信息传递较少。针对原模型的定位问题，新模型在FPN模块的后面添加一个自底向上的金字塔结构的PAN模块，该模块通过改进PANet结构得到。它将低层的强定位特征通过自底向上的下采样方式传递上去，是对FPN模块的补充优化。FPN与PAN的组合模块能从不同的主干层对不同的检测层进行参数聚合，进一步提高了模型的特征提取能力。

1.4 YOLO_Head模块

本文模型的输入是尺寸为608×608的电力设备红外图像，通过对特征图进行32、16和8倍下采样，得到分辨率为19×19、38×38和76×76三种不同尺度的特征图，它们分别被用于定位大尺度、中尺度和小尺度的设备目标，如图5所示。YOLO_Head模块在三个特征图的每个网格单元上预测三个边界框，每个预测框均带有类别、置信度和位置信息，其中包括四个类别变量vi（i=1, 2, 3, 4），一个置信度变量vc和四个位置变量（vx, vy, vw, vh），以上变量组成了模型的预测结果。

利用softmax函数将输出的类别变量按多类概率分布进行变换，每类电力设备对应的概率计算式为

这里将交叉熵损失函数作为分类损失的目标函数，定义为

式中，y为目标的标签类别是否为预测类别i，其值为0或1。

置信度反映了预测框内存在目标的概率，用sigmoid函数进行转换，有

同样将交叉熵损失函数作为置信度损失的目标函数，定义为

式中，y为预测框中是否存在目标，其值为0或1。

定位损失被用来确定最终的边界框位置，本文的定位损失定义为

式中，CIoU为边界框回归预测的计算方式，预测过程如图6所示；d为预测框中心点与标签框中心点之间的欧式距离；c为预测框与标签框的最小包围框的对角线距离；boxv为预测框；boxgt为标签框；IoU为两个框的交集区域面积与并集区域面积的比值；αr为约束量，能够控制预测框的长宽尽快地与标签框的长宽接近，其中，r为用于衡量预测框和标签框两者长宽比一致性的参数，α为平衡长宽比例的权衡参数。CIoU考虑了重叠面积、中心点距离、长宽比三种因素，能让模型在边框回归时取得更好的收敛速度和精度。

2 实验与结果分析

实验选取了包含避雷器、互感器、绝缘子、断路器四类具有相似外观结构的电力设备红外数据集。本节将本文模型与Faster R-CNN、SSD[37]和YOLOv3三种主流模型在选取的数据集上进行训练测试，并进行对比评估。

2.1 实验说明

本文研究的电力设备红外原始数据集来自于某电网公司对其辖下变电站设备带电检测获取的数据。由于深度学习需要大量数据样本对网络进行训练[38]，因此本研究对原数据集进行了图像增强和扩充预处理，处理后的数据集共包含4 323张设备图像，利用LabelImg图像标注工具共标记出635个避雷器、2 470个互感器、6 084个绝缘子和1 291个断路器设备。为了较好地评估网络性能、验证模型训练测试的泛化性能，本文将数据集随机分为比例基本相同的训练和测试数据，即训练与测试集分别包括2 162和2 161张图像。

对实验数据的训练与测试均在同一个Ubuntu 16.04操作系统的深度学习服务器上进行，该服务器带有Intel Xeon W-2145 CPU，两个GeForce RTX 2080Ti 11-GB GPU和64-GB DDR4 RAM。数据集的训练和测试均利用DarkNet框架实现，单张图片的检测效果通过OpenCV工具库可视化。

2.2 训练过程和分析

训练开始阶段利用迁移学习来初始化模型的权重。迁移学习是将一个领域内学习到的知识应用到另一个相似领域的技术[39]，它可以提取原始问题数据集和目标数据集之间的潜在特征或共同结构[40]，从而加速模型的训练并提高模型的性能。训练过程采用批归一化的方式优化，一个批次训练64个样本，每次将1个样本送入模型进行前向计算。设置模型的初始学习率为1.3×10-3，动量为0.949，权重衰减为0.000 5，共训练30 000个批次。

图7为训练过程中平均损失值（Avg_loss）与平均精度均值（mAP）随迭代次数（iterations）增加而变化的曲线。其中，mAP曲线是模型每训练4个epoch（本文即神经网络迭代136次）计算一次mAP值，共215个mAP值组合得到的。从图7可以看出，训练开始后损失值随着训练迭代次数的增加而逐渐减小，收敛速度较快，且误差波动范围逐渐缩小。当迭代次数达到5 000时，训练损失下降明显变慢，迭代20 000次后损失值在1左右波动，并且不再趋于降低，这表明模型达到了较为理想的训练效果。mAP曲线在训练迭代5 000次时已经达到较高值，但波动较大，迭代20 000次之后波动范围变小，并在迭代23 440次时mAP达到最大值0.960 37。因此选取第23 440次迭代的训练权重作为检测测试集的最终权重。

2.3 性能比较与结果分析

为了验证本文模型的有效性，本部分将Faster R-CNN、SSD、YOLOv3和本文提出的模型在四类电力设备红外数据集上进行实验评估，并讨论实验结果。评估指标包括计算每个类别的平均精度值（AP）、不同检测阈值（IoU）下的mAP和检测速度（FPS）。其中，AP是评价单一类别检测效果的重要指标，可以通过计算准确率P与召回率R（见式（10））曲线所包围的面积得到，见式（11）。mAP是模型检测四类电力设备的平均精度均值，它可以通过计算所有类别AP的平均值得到，定义为

式中，tp即真正例，表示模型正确识别出目标类别的数量；fp即假正例，表示模型将其他类别误判为目标类别的数量；fn即假反例，表示模型将目标类别误判为其他类别的数量。

表1给出了四种模型在不同阈值下（IoU=0.5和0.75）测试相同数据集得到的AP、mAP和FPS三个指标的比较结果。其中，本文模型在阈值为0.5和0.75时的mAP值分别为96.04%和89.58%，且检测速度高达56f/s。将本文模型与其他三种模型的测试结果进行对比，分析如下：在单类别的平均精度方面，本文模型检测避雷器、断路器、绝缘子的精度值均高于其他三种方法；在平均精度均值方面，不同阈值下本文模型均比其他模型精度高；在检测速度方面，由于改进的YOLOv3网络深度加深，速度略慢于原始YOLOv3模型，但是明显快于Faster R-CNN和SSD。总体而言，本文提出的模型在检测精度和速度上均达到了令人满意的结果。

图8展示了本文模型在随机挑选的测试集图像上的检测结果，它包括带标签框的原始图像和检测结果图。其中避雷器（arrester）、断路器（breaker）、互感器（transformer）、绝缘子（insulator）的预测结果分别如图8对应框中所示，边界框上方的值为模型预测该类别的置信度。可以看出，模型不仅能在特定场景下精确地检测到目标，而且在目标重叠、背景遮挡、复杂背景环境等情况下（如图8c、图8e、图8f），模型仍能以很高的准确率预测设备类别，并精确地定位到设备所在位置。以上结果表明，在不同场景下，本文所提出的模型在检测准确度、速度和定位精度方面均表现出较大的优势，尤其适用于变电站电力设备的红外目标检测。

3 结论

本文提出一种改进YOLOv3的电力设备红外图像检测新模型，主要从原模型的输入端、骨干网络、颈部及检测头四部分进行改进。改进后的模型针对避雷器、互感器、绝缘子、断路器四类具有相似外观结构的电力设备红外数据集进行对比实验。结果表明：

1）本文模型检测四类变电设备的精度均可达92%以上，获得了较好的红外目标检测效果。

2）在IoU阈值为0.5和0.75时，其平均精度均值分别高达96.04%和89.58%，均高于Faster R-CNN、SSD和YOLOv3模型。

3）在同一台实验平台上进行训练测试，提出模型的检测速度高达56f/s，略低于原始YOLOv3模型，但明显高于Faster R-CNN和SSD。本文模型不仅能准确识别电力设备类别，而且能快速精确地定位到设备所在位置，为后续电力设备的带电状态评估与诊断奠定了基础。

[1]Ullah I, Khan R U, Yang Fan, et al. Deep learning image-based defect detection in high voltage electrical equipment[J]. Energies, 2020, 13(2): 392.

[2]冯振新, 周东国, 江翼, 等. 基于改进 MSER 算法的电力设备红外故障区域提取方法[J]. 电力系统保护与控制, 2019, 47(5): 123-128. Feng Zhenxin, Zhou Dongguo, Jiang Yi, et al. Fault region extraction using improved MSER algorithm with application to the electrical system[J]. Power System Protection and Control, 2019, 47(5): 123-128.

[3]Jadin M S, Taib S. Recent progress in diagnosing the reliability of electrical equipment by using infrared thermography[J]. Infrared Physics & Technology, 2012, 55(4): 236-245.

[4]Jadin M S, Taib S, Ghazali K H. Finding region of interest in the infrared image of electrical installation[J]. Infrared Physics & Technology, 2015, 71: 329-338.

[5]Zhao Zhenbing, Xu Guozhi, Qi Yincheng. Representation of binary feature pooling for detection of insulator strings in infrared images[J]. IEEE Transactions on Dielectrics and Electrical Insulation, 2016, 23(5): 2858-2866.

[6]Almeida C A L, Braga A P, Nascimento S, et al. Intelligent thermographic diagnostic applied to surge arresters: a new approach[J]. IEEE Transactions on Power Delivery, 2009, 24(2): 751-757.

[7]Wu Qinggang, An Jubai. An active contour model based on texture distribution for extracting inhomogeneous insulators from aerial images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 52(6): 3613-3626.

[8]朱邵成, 高清维, 卢一相, 等. 基于频率调谐的绝缘子识别与定位[J]. 电工技术学报, 2018, 33(23): 5573-5580. Zhu Shaocheng, Gao Qingwei, Lu Yixiang, et al. Identification and location of insulator string based on frequency-tuned[J]. Transactions of China Electrotechnical Society, 2018, 33(23): 5573-5580.

[9]Wang Zhujun, Yang Lijian, Gao Songwei. Pipeline magnetic flux leakage image detection algorithm based on multiscale SSD network[J]. IEEE Transactions on Industrial Informatics, 2020, 16(1): 501-509.

[10]Zhong Junping, Liu Zhigang, Han Zhiwei, et al. A CNN-based defect inspection method for catenary split pins in high-speed railway[J]. IEEE Transactions on Instrumentation and Measurement, 2019, 68(8): 2849-2860.

[11]孙曙光, 李勤, 杜太行, 等. 基于一维卷积神经网络的低压万能式断路器附件故障诊断[J]. 电工技术学报, 2020, 35(12): 2562-2573. Sun Shuguang, Li Qin, Du Taihang, et al. Fault diagnosis of accessories for the low voltage conventional circuit breaker based on one-dimensional convolutional neural network[J]. Transactions of China Electrotechnical Society, 2020, 35(12): 2562-2573.

[12]Krizhevsky A, Sutskever I, Hinton G. ImageNet classification with deep convolutional neuralnetworks[C]//NIPS'12 Proceedings of the 25th International Conference on Neural Information Processing Systems, LakeTahoe, USA, 2012: 1097-1105.

[13]李超然, 肖飞, 樊亚翔, 等. 基于卷积神经网络的锂离子电池SOH估算[J]. 电工技术学报, 2020, 35(19): 4106-4119. Li Chaoran, Xiao Fei, Fan Yaxiang, et al. An approach to lithium-ion battery SOH estimation based on convolutional neural network[J]. Transactions of China Electrotechnical Society, 2020, 35(19): 4106-4119.

[14]Tao Xian, Zhang Dapeng, Wang Zihao, et al. Detection of power line insulator defects using aerial images analyzed with convolutional neural networks[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2020, 50(4): 1486-1498.

[15]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. [2015-04-10]. https://arxiv.org/abs/1409.1556.

[16]Liu Ziquan, Wang Huifang. Automatic detection of transformer components in inspection images based on improved faster R-CNN[J]. Energies, 2018, 11(12): 3496.

[17]Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems, Montreal, Canada, 2015: 91-99.

[18]Gong Xiaojin, Yao Qi, Wang Mengling, et al. A deep learning approach for oriented electrical equipment detection in thermal images[J]. IEEE Access, 2018, 6: 41590-41597.

[19]张倩, 王建平, 李帷韬. 基于反馈机制的卷积神经网络绝缘子状态检测方法[J]. 电工技术学报, 2019, 34(16): 3311-3321. Zhang Qian, Wang Jianping, Li Weitao. Insulator state detection of convolutional neural networks based on feedback mechanism[J]. Transactions of China Electrotechnical Society, 2019, 34(16): 3311-3321.

[20]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[21]Redmon J, Farhadi A. YOLOv3: An incremental improvement[J/OL]. [2018-04-8]. https://arxiv.org/ abs/1804.02767.

[22]Liu Yunpeng, Ji Xinxin, Pei Shaotong, et al. Research on automatic location and recognition of insulators in substation based on YOLOv3[J]. High Voltage, 2020, 5(1): 62-68.

[23]Choi J, Chun D, Kim H, et al. Gaussian YOLOV3: an accurate and fast object detector using localization uncertainty for autonomous driving[C]//IEEE International Conference on Computer Vision, Seoul, South Korea, 2019: 502-511.

[24]Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: optimal speed and accuracy of object detection[J/OL]. arXiv preprint arXiv:2004.10934.

[25]Zhao Liquan, Li Shuaiyang. Object detection algorithm based on improved YOLOv3[J]. Electronics, 2020, 9(3): 537.

[26]Tian Yunong, Yang Guodong, Wang Zhe, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157: 417-426.

[27]徐诚极, 王晓峰, 杨亚东. Attention-YOLO: 引入注意力机制的YOLO检测算法[J]. 计算机工程与应用, 2019, 55(6): 13-23. Xu Chengji, Wang Xiaofeng, Yang Yadong. Attention-YOLO: YOLO detection algorithm that introduces attention mechanism[J]. Computer Engineering and Applications, 2019, 55(6): 13-23.

[28]Wang C Y, Mark Liao H Y, Wu Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Seattle, USA, 2020: 390-391.

[29]Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 2117-2125.

[30]Liu Shu, Qi Lu, Qin Haifang, et al. Path aggregation network for instance segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 8759-8768.

[31]Maas A L, Hannun A Y, Ng A Y. Rectifier nonlinearities improve neural network acoustic models[C]//Proc. ICML, Atlanta, USA, 2013, 30(1): 3.

[32]Misra D. Mish: a self regularized non-monotonic neural activation function[J/OL]. https://arxiv.org/abs/ 1908.08681, 2019.

[33]He Kaimng, Zhang Xiangyu, Ren Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.

[34]Zheng Zhaohui, Wang Ping, Liu Wei, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]//AAAI Conference on Artificial Intelligence, New York, USA, 2020: 12993-13000.

[35]Yun Sangdoo, Han Dongyoon, ChunSanghyuk, et al. Cutmix: regularization strategy to train strong classifiers with localizable features[C]//IEEE/CVF International Conference on Computer Vision, Seoul, South Korea, 2019: 6023-6032.

[36]Zhu Qinfeng, Zheng Huifeng, Wang Yuebing, et al. Study on the evaluation method of sound phase cloud maps based on an improved YOLOv4 algorithm[J]. Sensors, 2020, 20(15): 4314.

[37]Liu Wei, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision, Amsterdam, Netherlands, 2016: 21-37.

[38]李垣江, 张周磊, 李梦含, 等. 采用深度学习的永磁同步电机匝间短路故障诊断方法[J]. 电机与控制学报, 2020, 24(9): 173-180. Li Yuanjiang, Zhang Zhoulei, Li Menghan, et al. Fault diagnosis of inter-turn short circuit of permanent magnet synchronous motor based on deep learning[J]. Electric Machines and Control, 2020, 24(9): 173-180.

[39]陈剑, 杜文娟, 王海风. 采用深度迁移学习定位含直驱风机次同步振荡源机组的方法[J]. 电工技术学报, 2021, 36(1): 179-190. Chen Jian, Du Wenyjuan, Wang Haifeng. A method of locating the power system subsynchronous oscillation source unit with grid-connected PMSG using deep transfer learning[J]. Transactions of China Electrote-chnical Society, 2021, 36(1): 179-190.

[40]Wen Long, Gao Liang, Li Xinyu. A new deep transfer learning based on sparse auto-encoder for fault diagnosis[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2019, 49(1): 136-144.

Abstract Infrared image detection technology is widely used in monitoring and diagnosing electrical equipment considering its non-contact and fast advantages. It is generally believed that fast and accurate localization of the equipment is the prerequisite for automatic detection and diagnosis. Compared with visible light images of ordinary objects, the infrared images of power equipment have characteristics of complex background, low contrast, similar object features, and large aspect ratio. Besides, the original YOLOv3 model is difficult to accurately locate the objects of power equipment. In view of the above problems, an improved YOLOv3 model was proposed in this paper: cross stage partial module was introduced into the backbone network; the path aggregation network was integrated into the feature pyramid structure of the original model; in addition, this study also added Mosaic data enhancement technology and CIoU loss function. The improved model was trained and tested on four types of infrared image data sets of power equipment with similar corrugated appearance structures, which showed that the detection accuracy of each type can reach more than 92%. Finally, the results were compared and evaluated with the other three mainstream object detection models. The results show that the mean average precisions of the improved model proposed in this paper were better than Faster R-CNN, SSD and YOLOv3. Although the detection speed of the improved YOLOv3 model is sacrificed compared to the original YOLOv3 model, it is significantly higher than the other two models, further verifying the effectiveness of the proposed model in this paper.

keywords：Power equipment detection, YOLOv3, convolutional neural network, infrared image

国家自然科学基金（51907034）和广西科技基地和人才专项科技项目（2020AC19010）资助。

郑含博男，1984年生，副教授，研究方向为电气设备智能检测与诊断、电工绝缘新材料、智能配电网及新能源应用。E-mail：hanbozheng@163.com（通信作者）

李金恒男，1996年生，硕士研究生，研究方向为电气设备的智能检测。E-mail：lijinheng2018@163.com