基于改进掩膜区域卷积神经网络的输电线路绝缘子自爆检测

摘要由于背景复杂、目标所占像素比例较小，掩膜区域卷积神经网络（Mask R-CNN）模型对输电线路绝缘子缺陷检测能力不足，该文提出一种改进的Mask R-CNN模型。具体地，首先，在特征提取网络中引入卷积注意力模块（CBAM），分别从通道和空间提升小目标特征保持性；其次，使用全局交并比（GIoU）计算目标间的相似度，提升定位准确性；最后，使用Tversky损失计算掩膜分支的损失，以提升不平衡样本下的检测效果。使用某输电运检中心无人机巡检作业所得具有自爆缺陷的绝缘子照片作为数据集对该模型进行验证，实验结果表明，与原始Mask R-CNN模型相比，该方法的平均精确率AP50:90、AP50和AP75分别提升至0.56、0.79和0.72；与三种经典目标检测算法相比，该算法具有较高的检测精度，模型的分割性能有一定提升，且比原始模型具有更好的鲁棒性，可以满足电力巡检中准确性和快速性的要求。

关键词：绝缘子缺陷检测掩膜区域卷积神经网络卷积注意力模块特征融合全局交并比 Tversky损失

0 引言

绝缘子长期挂网于恶劣环境中容易出现自爆缺陷，若不及时进行更换，输电线路由于爬距减小极易发生单相接地或相间短路故障，严重时甚至导致电网大规模停电。传统人工巡检效率低下，不能及时准确地反映线路设备的运行状况，一旦设备发生故障，往往造成巨大损失；同时在一些跨越江河和山区的地段，线路巡检成为盲区。使用无人机采集图像进行巡检可以减少环境因素带来的影响，速度快、效率高，降低了巡检人员的作业负担，现已被广泛应用于输电线路巡检。

目前，针对绝缘子目标和缺陷检测的研究通常基于传统视觉方法或深度学习方法[1]。申泽浩[2]利用图像阈值分割方法从原图中提取绝缘子串后，对其进行最小二乘法拟合，并利用绝缘子片的等距分布特点定位绝缘子掉串位置；Ren Ruoxu等[3]使用Otsu法和图割算法，结合热力图特点，较为准确地得到绝缘子缺陷轮廓区域。此类利用图像分割或图像匹配的检测方法由于光线不同、背景复杂、角度多样，使有效分割绝缘子区域较为困难，并影响最终检测效果。据此，传统机器学习方法依赖绝缘子结构的人工设计特征进行检测，考虑到绝缘子串具有明显的闭合轮廓，翟永杰等[4]提取绝缘子的局部特征训练分类器，再针对绝缘子独特的骨架结构设计特征描述子来识别绝缘子，但算法适用场景单一；赵振兵等[5]利用卷积获取图像特征，再输入支持向量机（Support Vector Machine, SVM）进行绝缘子缺陷分类，特征可靠性较高，但检测速度难以满足工业实时性要求。由于人员操作主观性较强，传统机器学习无法设置统一的算法评判标准，张倩等[6]提出改进型卷积神经网络（Convolutional Neural Network, CNN）模型对绝缘子状态进行检测，模仿人类认知过程，在LeNet_5网络基础上引入随机配置网络分类器，添加反馈机制，采用交替优化策略更新网络参数，而状态评价指标则基于熵理论设置，整个算法提供了新的特征设计与指标设置思路，具有一定指导意义，且结果表明该方法检测准确率较传统方法而言有所提升，但网络构建较复杂，图像质量还不够高。

使用深度学习方法训练神经网络学习目标特征，与传统算法相比，其特征表达能力更为优异，已在绝缘子缺陷检测上有所应用。针对已有单阶段与双阶段目标检测算法，结合实际巡检环境与所获图像特征，对算法进行改进。陈明等[7]在YOLOv3中加入金字塔特征注意网络，提升了绝缘子的定位准确率；针对红外图像对比度低、目标特征相近等特点，郑含博等[8]加入Mosaic数据增强技术，增强图像多样性，将PANet（path aggregation network）融合到原特征金字塔（Feature Pyramid Network, FPN）结构中，改善目标特征相似性对特征提取与融合阶段造成的干扰，损失函数的优化让模型具备更优的收敛速度和精度，结果表明，改进模型分类精度较高；李瑞生等[9]使用SSD（single shot multibox detector）检测输电线路销钉丢失，在网络中加入残差结构和一种多层级特征融合策略来提高模型鲁棒性，该模型对绝缘子破裂与污秽具有突出的检测效果；郝帅等[10]为改善复杂背景对目标检测造成的干扰，在YOLOv5基础上引入注意力机制，并针对多尺度特征信息设计融合模块，结果表明改进算法可以实现输电线路缺陷的有效检测。

双阶段算法并不一味追求检测速率，检测准确率被视为算法研究重点。目前双阶段算法基于大量锚框回归得到目标框，也有文献指出级联协同定位算法也可视作该领域算法[11]。针对图像中绝缘子被遮挡的问题，易继禹等[12]调整Faster R-CNN（faster region-convolutional neural network）候选区域比例来进一步提升模型检测精确度；赵振兵等[13]为解决尺度特征融合的有效性，在Cascade R-CNN模型基础上提出神经架构搜索获取空洞卷积提升特征提取的多尺度性，解决输电线路金具检测率低的问题；徐建军等[11]提出基于层次多任务深度学习的绝缘子自爆缺陷检测模型，使用基于卷积神经网络的分类网络，有效区分航拍图像中自爆绝缘子和正常绝缘子，结果表明，该模型具有较强的分类能力；王卓等[14]针对航拍图像复杂背景干扰绝缘子检测问题，提出协同深度学习的二阶段绝缘子故障检测方法，将全卷积网络（Fully Convolutional Network, FCN）与YOLOv3算法相协同，首先利用FCN实现绝缘子目标的初步分割，避免背景区域对绝缘子故障检测的干扰，然后构建YOLOv3模型进行绝缘子故障检测，实验结果表明，该方法能有效抑制背景干扰，较原始YOLOv3算法检测精度有所提升，但级联模型参数量较大，网络训练耗时较长。

出于安全考虑，无人机与电力线路的距离有所限制，巡检图像中绝缘子像素占比较少，其缺陷部分相对整张图片而言更是微小，所以绝缘子缺陷检测属于小目标检测，同时复杂的背景也增加了检测难度。通过改进小目标的特征提取方式可以提高网络的语义提取能力，兼具检测精度和效率[15]。伍锡如等[16]对掩膜区域卷积神经网络（Mask Region-Convolutional Neural Network, Mask R-CNN）主干特征层与特征金字塔间的卷积操作进行优化，保证了绝缘子形态的完整性。赵文清等[17]在Faster R-CNN特征提取阶段引入挤压激励网络，使模型更关注与目标相关的特征通道，提高了绝缘子的检测准确率。

本文针对无人机巡检图像中绝缘子缺陷检测这一特定情况，提出一种基于改进Mask R-CNN的输电线路绝缘子缺陷检测算法，其步骤为：①特征提取，将卷积注意力模块（Convolutional Block Attention Nodule, CBAM）引入主干特征提取网络中；②特征融合，对多尺度特征融合网络进行了优化；③目标检测，使用全局交并比（Generalized Intersection over Union, GIoU）指标衡量两个检测框的相似度；④目标分割，使用Tversky损失衡量掩膜分支的预测结果。结果显示，与原模型对比，所提方法在检测效果上有一定提升。

1 Mask R-CNN检测框架

Mask R-CNN算法基于Faster R-CNN框架，增加基于FCN的语义分割分支，在目标检测的同时进行语义分割，其基本框架如图1所示。该模型使用ResNet101提取主干特征，FPN融合高低层特征，通过区域建议网络（Region Proposal Network, RPN）输出目标建议框的集合，创造性地提出感兴趣区域对齐（Region of Interest Alignment, ROI Align），使目标建议框的集合产生特定大小的特征图，很好地解决了感兴趣区域池化（Region of Interest Pooling, ROI Pooling）在映射和池化过程中两次量化造成的区域不匹配问题，最后使用两个全连接层得到分类和边界框预测结果，并用一个全卷积网络得到掩膜预测结果。研究表明，一味地堆叠神经网络的层数并不能提升网络的特征学习能力，反而可能导致梯度弥散或梯度爆炸。Mask R-CNN在特征提取时使用了ResNet101残差网络[18]，该结构引入短路连接，允许保留浅层网络一定比例的输出，直接与底层特征相融合，保证特征信息的完整性。此过程中网络只学习输入、输出的差别，最终朝恒等映射的方向收敛，有效简化了网络层数增加导致的训练困难[19]。

在RPN网络得到目标的建议框之后，需要将其处理为统一大小并送入全连接层处理。Faster R-CNN根据预选框坐标信息，使用ROI Pooling将特征图中对应区域固定为统一尺寸，以便进行后续分类和包围框回归操作，由于预选框坐标可能存在浮点数，进行上述映射前需进行取整操作，而对所提取的ROI进行池化操作也会涉及量化取整处理，这两次数据处理后得到的候选框和模型预选位置有一定偏差，影响最终分割准确度。为解决量化操作带来的“不匹配问题”，Mask R-CNN提出ROI Align方法，采用双线性插值算法，保留浮点型坐标，计算每个采样点的像素值，将预选框与图像中的候选区域逐像素点匹配，该方法原理如图2所示，通过对与采样点P相邻的格点进行双线性插值，得到P的值。具体插值过程为

式中，A11、A12、A21、A22为四个像素点，坐标分别为 width=37,height=16.25

、

、

及

；f(P)为采样点P的像素值。

2 改进的Mask R-CNN网络框架

2.1 融合注意力机制的特征提取网络

对绝缘子缺陷这类小目标而言，检测时期望网络能更多关注缺陷区域整体轮廓和边缘，以实现更加精准的定位，这就要求网络能够自适应地关注有效特征。近年来，注意力机制广泛应用于图像处理领域，其核心思想是获取特征重要性的差异，及时更新特征图的权重占比，将计算资源投入更重要的任务，从而高效完成任务[20]。根据注意力权重施加位置和方式不同，将注意力机制分为通道域、空间域，对于特征图所含信息而言，通道和像素点间蕴含丰富的语义信息，因此本文使用CBAM[21]对特征图的通道和空间注意力信息进行融合，通过特征权值在通道域和空间域进行筛选，获得目标所含显著性特征。CBAM结构如图3所示，前半部分为通道注意力（Channel Attention, CA）模块，后半部分为空间注意力（Spatial Attention, SA）模块，其总体特征处理过程为

式中，

为输入特征图（H×W×C），其高度为H，宽度为W，通道数为C； width=17.55,height=15.05

为

的一维通道注意力映射； width=16.3,height=15.05

为

的二维空间注意力映射； width=13.2,height=14.2

表示逐像素相乘；

为经过CA子模块处理后的特征图； width=15.2,height=12.15

为输出的最终修正特征图。然后，通过CBAM子模块实现细节表达，即

式中，σ(·)为非线性作用函数sigmoid函数；MaxPool(·)为全局最大池化；AvgPool(·)为全局平均池化。式（4）运算操作均基于多层感知机（Multilayer Perceptron, MLP）设计，该结构权重系数分别为 width=14.4,height=15.05

和

，运算可得到两个包含不同信息的通道特征描述子 width=18.15,height=16.9

及

，表示分别经过全局平均池化和全局最大池化处理，最后逐元素相加得到通道注意力处理结果 width=35.05,height=16.9

；式（5）中f 7×7为进行7×7卷积，经过两类池化操作后得到两个空间特征描述子 width=30.05,height=21.3

和

，最终可得空间注意力处理结果 width=36.3,height=16.9

。

特征图的每个通道都被认为是一个特征提取器，CA子模块采用挤压激励的方法计算通道注意力，首先在空间维度进行全局最大池化（MaxPool）和全局平均池化（AvgPool）对输入的特征图进行空间维度压缩，将每个二维特征通道转换为具有通道响应的全局分布，利用平均池化和最大池化对上下文特征进行描述；之后经过一个共享全连接层（Fully Connection Layers, FC）降低特征维度，再经过第二个共享全连接层恢复到原来的维度。通过以上操作，增强了通道间的特征相关性，之后与输入特征图F逐像素相乘便可完成通道显著性特征的选择，得到SA子模块的输入特征图 width=13.75,height=11.25

。SA子模块从空间层次出发，针对同一特征通道不同位置的像素进行特征筛选。首先保持通道数不变，使用并行的全局最大池化和全局平均池化对所有空间位置上每个像素通道信息进行编码，生成有效的特征描述符，7×7卷积对通道压缩后的特征进行相关性增强，最后经归一化处理实现空间位置显著性特征选择。

输入图像经ResNet101特征提取后可得到图像分别压缩2次、3次、4次及5次后包含目标不同尺度特征的结果，称为基础特征层Ci(i=2, 3, 4, 5)。本文将CBAM加入C4和C5，以提升模型对感兴趣语义信息的提取能力。

2.2 多尺度特征增强

基础特征层Ci(i=2, 3, 4, 5)的分辨率不同，其中蕴含的语义信息也有所差异。由于低层信息和高层信息的互补性，FPN融合低层细节特征和高层语义信息，采用金字塔式的层级结构对所获取的低分辨率特征图进行上采样，利用横向连接，与对应尺度的有效特征层进行融合。

加入注意力机制的主干特征提取网络所获特征层仍具有图像金字塔特征信息的局限性，每次融合将非相邻尺度特征信息进行稀释[22]，忽略尺度跨度较大的信息，使得分割阶段所用特征图不够完整，导致分割精度不高，因此必须保证特征融合可生成兼具高语义信息与位置信息的多尺度特征。为提高低层信息的利用率，Liu Shu等提出PANet[23]，增加并行“自底向上”路径促进信息的流动。借助该融合思想，在FPN中引入一条并行的自底而上路径和一个特征融合模块，在有效融合多尺度特征信息的同时提升全局特征表达能力。特征融合过程如图4所示。特征层Pi(i=2, 3, 4, 5)由自上而下路径得到，Ni(i=2, 3, 4, 5)是新增自底向上路径进一步增强所得。新增路径中，利用一个浅层Ni和更深层Pi+1融合生成第Ni+1层，其中N2与P2相同，Ni经步长为2的3×3卷积进行下采样，此时通过横向连接与Pi+1逐元素相加，在不改变特征图层数的前提下，经3×3卷积和ReLU处理，消除融合阶段下采样操作可能产生的特征混叠效应[24]。据此过程进行迭代生成Ni+1用于后续的子网络，使小目标特征在特征提取时不易被网络过滤。此时所得特征层Ni所含信息均基于相邻层，利用特征融和模块赋予每个特征层图像全局语义信息。

融合模块采用1×1卷积和3×3卷积串行组成。在输入该模块前，对Ni进行尺度缩放，调整为同一分辨率并行输入，1×1卷积保证各输入特征层的维度相同，在此基础上进行特征融合；3×3卷积在不增加模型深度的前提下，进行细小特征提取。再次反向尺度操作恢复所需各个尺度特征层，此时便可得到包含场景全局语义信息的有效特征层。

2.3 使用GIoU衡量检测框相似度

由于航拍场景的特殊性，绝缘子分布有所交叠且所处背景复杂，通常在目标定位阶段借助非极大值抑制算法对检测框进行筛选，根据交并比（Intersection over Union, IoU）函数选择置信度最高的候选框作为检测结果。这种方法对于非密集场景下的定位有出色的效果，而根据单阈值设置IoU对检测框进行滤除[25]并未考虑目标重叠的情况，当属于同一类的多个物体非常靠近时，算法只会保留置信度最高的候选框，从而造成目标漏检。

IoU由锚点框A和相应实例框B计算所得，即

式（6）用于衡量两个目标的重合度，对应值越大则说明此时定位效果越好。该指标用于表示两个相交矩形框间的距离，对于不相交的矩形框，IoU值始终为0，无法描述目标的相对位置。为得到更一般的目标间距离与位置，实现重叠目标的有效定位，将其替换为全局交并比，该指标为

式中，C为能够包含任意两个框A、B的最小矩形框。IoU和GIoU两者计算方式对比如图5所示，GIoU解决了传统IoU只根据两个框自身信息进行计算而导致非重叠场景下目标漏检问题，以及忽视目标相对位置而导致模型检测性能不佳问题。通过引入最小外接矩形框C，增加衡量两目标间重叠形式和重叠程度的信息，不仅可以准确刻画目标间的距离，而且可以更为有效地表示锚点框和实例框间的重叠，即使在无重叠情况下，也可保证保留下的实例框的准确性，提升模型的定位性能。

2.4 分割损失函数优化

模型训练过程中，损失函数监督模型参数的更新方向很大程度上影响最终检测性能。传统CNN算法实现的特征提取大多基于样本类别分布均匀的通用数据集，而实际所获取生产数据呈长尾分布[26]，采集的绝缘子数据集中，正常绝缘子占很大部分而缺陷绝缘子数量相对较少，这种数据分布使模型对缺陷状态绝缘子数据训练时会产生欠拟合现象，导致漏检现象出现。针对不平衡数据造成模型高精度低召回率的问题，对原始Mask R-CNN算法损失函数中的掩膜损失函数 width=21.8,height=15.2

部分进行改进，以缓解样本不平衡对模型训练的影响。

原始Mask R-CNN算法中多任务损失函数由分类损失函数 width=16.25,height=15.2

、边界框损失函数

及掩膜损失函数

三部分组成，即

式中，α、β、λ分别为 width=16.25,height=15.2

、

及

的权重参数。将

所使用的二值交叉熵损失函数替换为基于Tversky指数所提出的广义损失函数[27]，使模型可以在检测精度与召回率之间找到更好的平衡。对应的Tversky损失函数为

式中，P为预测值（prediction）；G为真值（ground truth）；|P∩G|为真正例（True Positive, TP），|P-G|为假正例（False Positive, FP），|G-P|为假反例（False Negtive, FN），此处，正例代表缺陷绝缘子，反例代表正常绝缘子；μ、分别为FP和FN的控制因子，训练过程中只需调整控制因子，以权衡FP和FN，使模型在不均衡样本条件下更关注FN，提升网络学习的鲁棒性，本文将其分别设置为0.3和0.7。优化后的Mask R-CNN输出单元损失函数L为

3 实验结果分析

3.1 数据集

本文使用的数据集源于国网某输电运检中心无人机作业班巡检作业，其中含有带缺陷的绝缘子图像共792张。通过翻转变换、模糊处理、加噪处理、对比度增强、色度增强、锐度增强等方法扩充数据集，最终生成绝缘子缺陷图像3 006张，其中70%作为训练集，10%作为验证集，20%作为测试集。数据扩充后生成的图像如图7所示，并利用Labelme进行缺陷部分标注。

3.2 网络训练

网络训练使用Keras深度学习框架，脚本语言使用Python3.7.6，且均基于Intel Core i5—9400@2.90GHz CPU和6GB运行内存的NVIDIA RTX1660Ti硬件配置完成。为减少训练时间，提高模型辨识准确率，训练过程采用迁移学习思想[28]，利用COCO（common objects in context）数据集预训练权重，学习率设置为0.001，动量值为0.9。为保证硬件资源与训练时间可得到充分利用，采用冻结与解冻相结合策略进行模型训练，前20个epoch（1个epoch为使用训练集中的全部样本训练一次）用于冻结主干网络，将更多资源投入后续网络的训练，且保证迁移学习不会破坏预训练权重；然后解冻训练130个epoch得到最终模型，考虑航拍图像的像素与尺寸，统一设置批大小为2。

模型改进前后对应训练损失函数和验证损失函数如图8所示。黑色线条为原Mask R-CNN结果曲线，红色线条表示改进模型曲线，横坐标为模型迭代次数，均设置迭代150个epoch，纵坐标为损失函数值。由图8a可知，前20个epoch的冻结训练使网络收敛速度明显提升，损失函数值骤降，之后损失值平稳下降，两者均在迭代30个epoch后开始收敛，最终约稳定在0.139，从收敛情况可看出本文提出模型的训练效果较理想。图8b验证了损失函数可衡量所得模型的泛化能力，由于改进后模型参数量较原模型有所增加，其验证损失相较于原算法收敛速度较慢，在迭代120个epoch后开始收敛，最终约稳定在0.128，可证明改进模型具有良好的数据拟合能力。

3.3 缺陷检测结果

判定网络性能往往依据模型所得预测框和人工标注真实框的匹配度，根据匹配度差异可将检测结果分为TP、TN、FP以及FN，在本文中真反例（True Negtive, TN）代表正常绝缘子，据此得到查准率（Precision, P）和查全率（Recall, R）指标，分别反映模型对目标的分类能力和检测能力。以查全率为横坐标，查准率为纵坐标绘制P-R曲线可作为模型综合评价指标，曲线下所围成的面积称为平均精确率（Average Precision, AP），即

式中，P(R)为P-R曲线。

本文通过使用相同输电线路巡检数据集，选择单目标场景中存在干扰、目标与背景颜色相近、目标倾斜三种常见情形和双目标场景的巡检图像进行测试，并通过消融实验验证改进方法的有效性。不同改进策略下的分割精度对比结果见表1，以AP50:95、AP50和AP75为主要评价指标。其中，AP50:95表示计算以0.05为步长，IoU在0.5～0.95之间变化的AP平均值；AP50和AP75分别表示IoU为0.50和0.75时计算所得AP。由表1可知，改进网络检测性能指标均较原始网络有所提升，相比原网络，AP50:95提升至0.56，AP50提升至0.79，AP75则提升到0.72；且各模块均可有效提升模型分割精度，尤其GIoU指标的替换和使用Tversky损失作为掩膜损失这两部分改进，具有较为突出的效果。

一般而言，模型性能的要求随IoU阈值的增大而提高，AP50可反映模型对目标的综合检测能力，AP75则更能体现模型对目标边界框的回归能力。为进一步证明改进算法针对输电线路绝缘子自爆缺陷检测的优越性，分别得到AP50和AP75条件下，改进前后模型的P-R曲线进行更为直观的比较，如图9所示。曲线包围所得面积越大，则说明对应算法具有更优的分类及检测性能。可以看出，改进后算法对应的曲线均处于外侧，由此可证明本文方法的有效性，其性能优于原始算法。

本文改进模型与原始模型对绝缘子自爆缺陷检测结果如图10所示。通过视觉对比，原模型在背景与目标颜色相近时能较好地完成检测，但仍会出现误检现象，本文方法在单目标检测场景所得检测框更完整，分割实例掩膜也更准确，尤其对于目标边缘细节部分处理更平滑，分割效果有所改善；对于多目标检测场景，也可以准确检测并分割完整实例掩码。可视化结果验证了改进后Mask R-CNN对巡检图像中缺陷绝缘子检测的有效性。

结合评价指标和检测效果图进一步分析得到以下结论：绝缘子通常处于较为复杂的自然环境，由于周围输电线路构件和背景与绝缘子的高似然性，对绝缘子检测具有一定的影响。如图10中绝缘子周围分布输电线与铁架这一场景，由于线路铁架与绝缘子骨架相近，采用原始模型出现误检现象；又由于绝缘子颜色与其背景色彩极为相似，对模型判断产生了误导，从而造成漏检现象。改进后模型可在一定程度上避免外界高似然结构的干扰，实现绝缘子缺陷部分的有效检测，这从一定程度上验证了所改进模块的有效性，尤其CBAM对目标特征的有效提取及GIoU指标对候选框的有效选择，在一定程度上改善了小目标及样本不均对检测带来的影响。

3.4 不同算法检测结果比较

为进一步验证本文算法的检测性能，将所提算法与三种经典目标检测算法Faster R-CNN、YOLOX及CenterNet进行对比，针对相同的输电线路缺陷绝缘子数据集和环境配置进行对比实验。各算法性能指标见表2，可视化检测结果如图11所示。选取两种特殊场景图像进行对比分析：①存在多故障目标。此时，CenterNet和YOLOX出现漏检现象，Faster R-CNN和本文算法均可准确检测缺陷目标，但本文算法检测精度更高，且检测框包围部分更加准确；②目标存在部分遮挡。四种算法均准确定位目标，本文算法检测精度最高，且目标置信度较其他算法有所提升。综上所述，较高的精度值表明本文算法可实现准确的定位与分割，可视化分析则体现检测结果与实际目标之间较高的贴合性，且算法可有效滤除背景干扰，对输电线路缺陷绝缘子检测效果明显提升。

针对改进前后Mask R-CNN性能，在比较检测精度之余，引入参数量和GFLOPs作为模型复杂度衡量指标。其中，参数量用于衡量模型计算内存资源的消耗；GFLOPs为每秒10亿次的浮点运算，反映模型训练的计算复杂度。改进前后指标对比见表3。从表3可看出，由于改进过程中网络规模的变化，改进后模型计算量和参数量有所增加，但均为小幅度增长，而检测精度与改进前模型相比，有较为显著的提升，因此，本文算法在保证足够实时性的前提可完成高精度检测。

4 结论

本文提出了一种改进Mask R-CNN算法，在特征提取阶段加入CBAM，并通过增加特征融合路径和总体特征融合模块完成绝缘子特征有效融合；在定位与分割阶段利用GIoU进行检测框有效滤除，利用Tversky损失函数缓解数据集不平衡对模型的干扰。实验结果表明，改进网络可有效解决输电线路绝缘子小目标缺陷特征提取及目标高度重叠场景的检测，提升了算法的性能，且具有较强泛化能力。

[1] 赵振兵, 翟永杰, 张珂, 等. 电力视觉技术[M]. 北京: 中国电力出版社, 2020.

[2] 申泽浩. 航拍架空输电线路绝缘子缺陷检测方法研究[D]. 天津: 天津工业大学, 2020.

[3] Ren Ruoxu, Hung T, Tan K C. A generic deep-learning-based approach for automated surface inspection[J]. IEEE Transactions on Cybernetics, 2018, 48(3): 929-940.

[4] 翟永杰, 王迪, 赵振兵. 基于目标建议与结构搜索的绝缘子识别方法[J]. 华北电力大学学报(自然科学版), 2016, 43(4): 66-71, 78.

Zhai Yongjie, Wang Di, Zhao Zhenbing. Recognition method of insulator based on object proposals and structure research[J]. Journal of North China Electric Power University (Natural Science Edition), 2016, 43(4): 66-71, 78.

[5] Zhao Zhenbing, Xu Guozhi, Qi Yincheng, et al. Multi-patch deep features for power line insulator status classification from aerial images[C]//2016 International Joint Conference on Neural Networks (IJCNN), Vancouver, BC, Canada, 2016: 3187-3194.

[6] 张倩, 王建平, 李帷韬. 基于反馈机制的卷积神经网络绝缘子状态检测方法[J]. 电工技术学报, 2019, 34(16): 3311-3321.

Zhang Qian, Wang Jianping, Li Weitao. Insulator state detection of convolutional neural networks based on feedback mechanism[J]. Transactions of China Electrotechnical Society, 2019, 34(16): 3311-3321.

[7] 陈明, 赵连飞, 苑立民, 等. 基于特征选择YOLOv3网络的红外图像绝缘子检测方法[J]. 红外与激光工程, 2020, 49(增刊2): 262-267.

Chen Ming, Zhao Lianfei, Yuan Limin, et al. Insulator detection method based on feature selection YOLOv3 network[J]. Infrared and Laser Engineering, 2020, 49(S2): 262-267.

[8] 郑含博, 李金恒, 刘洋, 等. 基于改进YOLOv3的电力设备红外目标检测模型[J]. 电工技术学报, 2021, 36(7): 1389-1398.

Zheng Hanbo, Li Jinheng, Liu Yang, et al. Infrared object detection model for power equipment based on improved YOLOv3[J]. Transactions of China Electrotechnical Society, 2021, 36(7): 1389-1398.

[9] 李瑞生, 张彦龙, 翟登辉, 等. 基于改进SSD的输电线路销钉缺陷检测[J]. 高电压技术, 2021, 47(11): 3795-3802.

Li Ruisheng, Zhang Yanlong, Zhai Denghui, et al. Pin defect detection of transmission line based on improved SSD[J]. High Voltage Engineering, 2021, 47(11): 3795-3802.

[10] 郝帅, 杨磊, 马旭, 等.基于注意力机制与跨尺度特征融合的YOLOv5输电线路故障检测[J/OL]. 中国电机工程学报: 1-12 [2022-08-09]. http://kns.cnki. net/kcms/detail/11.2107.tm.20220126.1718.008.html.Hao Shuai, Yang Lei, Ma Xu, et al. YOLOv5 Transmission Line Fault Detection Based on Attention Mechanism and Cross-scale Feature Fusion[J/OL]. Proceedings of the CSEE: 1-12 [2022-08-09]. http://kns.cnki.net/kcms/detail/11.2107.tm.20220126.1718.008.html.

[11] 徐建军, 黄立达, 闫丽梅, 等. 基于层次多任务深度学习的绝缘子自爆缺陷检测[J]. 电工技术学报, 2021, 36(7): 1407-1415.

Xu Jianjun, Huang Lida, Yan Limei, et al. Insulator self-explosion defect detection based on hierarchical multi-task deep learning[J]. Transactions of China Electrotechnical Society, 2021, 36(7): 1407-1415.

[12] 易继禹, 陈慈发, 龚国强. 基于改进Faster RCNN的输电线路航拍绝缘子检测[J]. 计算机工程, 2021, 47(6): 292-298, 304.

Yi Jiyu, Chen Cifa, Gong Guoqiang. Aerial insulator detection of transmission line based on improved faster RCNN[J]. Computer Engineering, 2021, 47(6): 292-298, 304.

[13] 赵振兵, 熊静, 李冰, 等. 基于改进Cascade R-CNN的典型金具及其部分缺陷检测方法[J]. 高电压技术, 2022, 48(3): 1060-1067.

Zhao Zhenbing, Xiong Jing, Li Bing, et al. Typical fittings and its partial defect detection method based on improved Cascade R-CNN[J]. High Voltage Engineering, 2022, 48(3): 1060-1067.

[14] 王卓, 王玉静, 王庆岩, 等. 基于协同深度学习的二阶段绝缘子故障检测方法[J]. 电工技术学报, 2021, 36(17): 3594-3604.

Wang Zhuo, Wang Yujing, Wang Qingyan, et al. Two stage insulator fault detection method based on collaborative deep learning[J]. Transactions of China Electrotechnical Society, 2021, 36(17): 3594-3604.

[15] 孙备, 左震, 吴鹏, 等. 面向无人艇环境感知的改进型SSD目标检测方法[J]. 仪器仪表学报, 2021, 42(9): 52-61.

Sun Bei, Zuo Zhen, Wu Peng, et al. Object detection for environment perception of unmanned surface vehicles based on the improved SSD[J]. Chinese Journal of Scientific Instrument, 2021, 42(9): 52-61.

[16] 伍锡如, 邱涛涛, 王耀南. 改进Mask R-CNN的交通场景多目标快速检测与分割[J]. 仪器仪表学报, 2021, 42(7): 242-249.

Wu Xiru, Qiu Taotao, Wang Yaonan. Multi-object detection and segmentation for traffic scene based on improved Mask R-CNN[J]. Chinese Journal of Scientific Instrument, 2021, 42(7): 242-249.

[17] 赵文清, 程幸福, 赵振兵, 等. 注意力机制和Faster RCNN相结合的绝缘子识别[J]. 智能系统学报, 2020, 15(1): 92-98.

Zhao Wenqing, Cheng Xingfu, Zhao Zhenbing, et al. Insulator recognition based on attention mechanism and Faster RCNN[J]. CAAI Transactions on Intelligent Systems, 2020, 15(1): 92-98.

[18] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016: 770-778.

[19] 蒋弘毅, 王永娟, 康锦煜. 目标检测模型及其优化方法综述[J]. 自动化学报, 2021, 47(6): 1232-1255.

Jiang Hongyi, Wang Yongjuan, Kang Jinyu. A survey of object detection models and its optimization methods[J]. Acta Automatica Sinica, 2021, 47(6): 1232-1255.

[20] 张宸嘉, 朱磊, 俞璐. 卷积神经网络中的注意力机制综述[J]. 计算机工程与应用, 2021, 57(20): 64-72.

Zhang Chenjia, Zhu Lei, Yu Lu. Review of attention mechanism in convolutional neural networks[J]. Computer Engineering and Applications, 2021, 57(20): 64-72.

[21] Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Computer Vision - ECCV 2018, Munich, Germany, 2018: 3-19.

[22] 史彩娟, 陈厚儒, 葛录录, 等. 注意力残差多尺度特征增强的显著性实例分割[J]. 图学学报, 2021, 42(6): 883-890.

Shi Caijuan, Chen Houru, Ge Lulu, et al. Salient instance segmentation via attention residual multi-scale feature enhancement[J]. Journal of Graphics, 2021, 42(6): 883-890.

[23] Liu Shu, Qi Lu, Qin Haifang, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018: 8759-8768.

[24] 文韬, 周稻祥, 李明. Mask R-CNN中特征不平衡问题的全局信息融合方法[J]. 计算机工程, 2021, 47(3): 256-260, 268.

Wen Tao, Zhou Daoxiang, Li Ming. Global information fusion method for feature imbalance problem in mask R-CNN[J]. Computer Engineering, 2021, 47(3): 256-260, 268.

[25] 侯志强, 刘晓义, 余旺盛, 等. 使用GIoU改进非极大值抑制的目标检测算法[J]. 电子学报, 2021, 49(4): 696-705.

Hou Zhiqiang, Liu Xiaoyi, Yu Wangsheng, et al. Object detection algorithm for improving non-maximum suppression using GIoU[J]. Acta Electronica Sinica, 2021, 49(4): 696-705.

[26] 曹洁, 何智栋, 余萍, 等. 数据不平衡分布下轴承故障诊断方法[J/OL]. 吉林大学学报(工学版): 1-10 [2021-08-19]. DOI:10.13229/j.cnki.jdxbgxb20210374.

Cao Jie, He Zhidong, Yu Ping, et al. Bearing fault diagnosis method under unbalanced data distribution[J].Journal of Jilin University (Engineering and Technology Edition): 1-10 [2021-08-19]. DOI:10.13229/j.cnki. jdxbgxb20210374.

[27] Salehi S S M, Erdogmus D, Gholipour A. Tversky loss function for image segmentation using 3D fully convolutional deep networks[C]//MLMI 2017: Machine Learning in Medical Imaging, Quebec City, QC, Canada, 2017: 379-387.

[28] 周宸, 高伟, 郭谋发. 基于YOLOv4模型的玻璃绝缘子自爆缺陷识别方法[J]. 电气技术, 2021, 22(5): 38-42, 49.

Zhou Chen, Gao Wei, Guo Moufa. Recognition method of self-explosion defects of glass insulators based on YOLOv4 model[J]. Electrical Engineering, 2021, 22(5): 38-42, 49.

Transmission Line Insulator Self-Explosion Detection Based on Improved Mask Region-Convolutional Neural Network

（School of Automation and Electrical Engineering Lanzhou Jiaotong University Lanzhou 730070 China）

Abstract Transmission lines occupy a relatively large proportion in the power system, in order to ensure the safe and stable operation of the power system, it is necessary to regularly inspect the transmission lines, among them, insulators in the transmission line play the role of insulation and support, due to the long-term hanging and working outdoors, prone to self-explosion defects, resulting in short-circuit faults on the line, and even large-scale power outages. With the development of artificial intelligence, the use of unmanned aerial vehicles (UAV) for line inspection, and then based on deep learning target detection methods for insulator defect detection has become an intelligent inspection method with great development potential. Due to the different shooting angles of the UAV, the insulators of the lines obtained by the inspection are different, and the environment in which the insulators are located is different, which results in the occlusion phenomenon of some insulators, to overcome these problems, this paper proposes to make relevant improvements on the basis of the two-stage target detection algorithm Mask region-convolutional neural network (Mask R-CNN), to ensure the detection speed and improve the detection rate of defective insulators by the algorithm.

For the insulator defects belonging to the category of small target detection, theconvolutional block attention module (CBAM) attention mechanism is introduced in the backbone feature extraction network, so that the network can focus on the defect contour and obtain more interesting high-semantic information in the process of extracting the semantic information of the defect part. Then, in order to improve the limitations of semantic information still possessed by the feature layer, the parallel "bottom-up" path and feature fusion module are added to the original feature fusion network to promote the flow of information and global feature fusion. Once more, with the help of Generalized Intersection over Union(GIoU) to accurately characterize the distance between targets, the positioning performance of the model can be effectively improved when the targets overlap. Conclusively, the part of the original algorithmic loss function is replaced with the Tversky Loss function to alleviate the effect of sample imbalance on model training.

Based on the defective insulator dataset obtained by the UAV operation class of a transmission and transportation inspection center of the State Grid, the training of the improved network is carried out, and the model training effect is obtained from the convergence of the loss curve, and the generalization ability of the model is also improved. By using the improved model for defect detection and comparing the visual positioning results, the proposed algorithm avoids the interference of the high likelihood structure around the target to a certain extent, which realizes the effective detection of the insulator defect part, and improves the impact of small targets and sample unevenness on the detection. Compared with the original algorithm, the AP50:95 of the proposed algorithm is increased to 0.56, AP50 to 0.79, and AP75 to 0.72. Finally, the performance of the algorithm is comprehensively compared, and the P-R curves of the improved before and after models under the conditions of AP50 and AP75 are compared, and it can be obtained that the corresponding curves of the improved algorithm are on the outside of the original algorithm curve, which shows the effectiveness of the proposed method, and the performance is better than that of the original algorithm.

keywords：Insulator defect detection, mask region-convolutional neural network (Mask R-CNN), convolutional block attention module (CBAM), feature fusion, generalized intersection over union (GIoU), Tversky loss

苟军年男，1977年生，副教授，硕士生导师，研究方向为CT图像重建、机器视觉和基于深度学习的图像处理。E-mail：junnian@mail.lzjtu.com（通信作者）

杜愫愫女，1997年生，硕士研究生，研究方向为机器视觉和基于深度学习的图像处理。E-mail：dssssd1201@sina.com