基于DI-PointNet的变电站主设备点云高精度语义分割方法

（1. 华北电力大学河北省输变电设备安全防御重点实验室保定 071003 2. 国网智能科技股份有限公司济南 250098）

摘要在变电站机器人巡检任务中，三维点云数据的高精度语义分割是关键技术之一，有助于机器人理解电力设备、障碍物和其他物体的空间布局。然而，现有的点云分割算法在变电站场景中的应用效果有限，准确度较低、计算复杂度高，难以实现对变电站主设备点云的准确分割。为了解决这一问题，该文提出了一种基于PointNet++的DI-PointNet算法。首先，采用双层连续变换器模块增强点云之间的信息交互，有效地聚合长距离上下文，增大网络有效感受野；其次，通过分层键采样策略生成自注意力机制所需的键值，降低算法复杂度；最后，使用倒置残差模块，通过倒置瓶颈设计和残差连接缓解梯度消失，有效地增加模型的深度，同时降低计算复杂度。此外，该文构建了变电站点云数据集，对DI-PointNet算法进行详细的消融实验，并与主流深度学习算法和电力领域典型点云分割算法进行对比。实验验证结果表明，DI-PointNet算法对变电站主设备点云分割的平均交并比达到82.5%，相比PointNet++算法提高了2.1个百分点，且总体精度提高了3.4个百分点，达到90.1%。DI-PointNet算法为智能电力设备巡检和维护提供了有效的解决方案。

关键词：点云语义分割双层连续变换器分层键采样倒置残差变电站

0 引言

变电站作为电力系统的核心组成部分，对电力输送起到至关重要的作用。但变电站中的电气设备随着时间的推移，可能会出现过载、老化、绝缘损坏等问题，继而发生故障，导致停机和电力中断。因此，为了保证电力系统供电的可靠性，电网公司需要消耗大量人力物力对变电站进行巡检和维护工作，以保证电气设备的正常运行[1-2]。现有的变电站巡检和维护方式包括人工巡检、无人机巡检[3]、遥感和卫星图像监测及机器人巡检这四种巡检方式。其中机器人巡检是电力行业和机器人技术领域的研究热点之一，智能机器人可以自主执行巡检任务，包括设备检查、数据采集、维护任务等[4-6]。

智能巡检和作业机器人通常搭载激光雷达等传感器实现自主巡航和避障功能，以保证能够规划最佳巡检路径，适应不同的环境条件，包括狭窄的通道、障碍物和不同高度的设备。利用激光雷达可获取三维点云地图，进而通过对三维点云地图的高精度语义分割为点云中的每个点分配特定的语义标签，帮助机器人识别各电力设备、障碍物及其他物体。因此，构造变电站的点云高精度语义分割模型是实现变电站机器人精细化巡检和作业的前提，有助于变电站场景的智能建模，对智能电网的建设起到推动作用[7-8]。

目前三维点云语义分割的研究主要包括两大类：第一类是分析点云数据本身的特征对点云数据进行传统分割；第二类是采用深度学习对点云数据进行处理分割。

传统分割算法分为基于边缘的方法、基于区域增长的方法和基于模型拟合的方法。文献[9]基于扫描线分组技术，利用高级特征（曲线段）作为分割基元，实现了将范围图像快速分割成统一框架中的平面和曲面片段，但这种方法受点云和噪声稠密度的影响很大，导致准确度不高，并且难以识别断开的边界。文献[10]建立了一个边界提取算法，在建立点云和图像数据之间关系的基础上，根据它们的深度信息将点云转换为深度图像，并使用改进的边缘检测算子提取深度图像的边界点，以实现从点云数据中快速分割提取建筑物边界。文献[11]通过改进可变阶表面拟合的迭代区域生长方法，将大量图像同时分割为任意形状的区域，并用双变量函数近似图像数据，但该方法假设同一区域内的点具有相似的属性，在处理具有复杂形状的物体时会遇到困难。文献[12]基于随机抽样来检测无组织点云的基本形状，将点云分解为简单的、固有形状的混合结构，可以实现对点集在短时间内进行稳定的分割，但这种方法需要进行复杂的数学计算，在处理大规模点云数据时，算法的计算复杂度较高，运行时间较长。

传统点云语义分割算法存在一些限制，包括依赖繁琐的手工特征工程、鲁棒性不足、对大规模标记数据的需求、局部信息捕捉不足、计算效率低以及泛化能力有限等。这些问题使得在处理复杂的三维场景时制约了它们的性能和应用。

随着深度学习的普及[13-15]，深度神经网络极大地推动了计算机视觉技术的进步和发展。深度学习方法弥补了传统点云语义分割算法存在的不足，已经成为目前实现点云语义分割的主要方法。基于深度学习的点云语义分割算法按照对点云的处理方式分为点云体素化、点云投影到二维平面和直接在点云上处理三种。

对于点云体素化方式，文献[16]提出VoxNet模型，可将非结构化点云转换为规则体素，并使用三维卷积神经网络（3-Dimentional Convolutional Neural Network, 3D CNN）对标准卷积操作占据的体素进行语义标签预测，但由于三维卷积的稀疏性和高计算复杂度，存在体素排列效率低的限制。文献[17]通过权重共享减少模型参数，采用降低分辨率精细度的方式解决三维卷积的稀疏性带来的内存占用过高的问题，但会导致点云信息的损失。

对于点云投影到二维平面的方式，文献[18]提出SnapNet模型。该模型首先对点云进行预处理并生成视点，选择不同的视点生成RGB图像和深度图像；然后使用全卷积神经网络对RGB图像和深度图像进行注释；最后将标签反投影到点云中以获得语义分割结果。但SnapNet在特征聚合过程中的最大池化操作只保留某个特定视角的最大元素，会导致局部信息的部分丢失。相较于点云体素化方法，点云投影到二维平面的方式占用内存少、分割速度快，但对视角的选择和遮挡较为敏感，并且只能获取物体表面的信息，产生信息损失。

对于直接在点云上处理的方式，文献[19]提出了PointNet模型，以原始点云为输入，通过对称函数对每个点的特征求和，利用最大池化层聚合所有点的特征，得到全局表示。但PointNet只能捕捉全局信息，缺少点云的局部信息。文献[20]在PointNet模型的基础上，增加采样层和分组层构成了PointNet++模型，利用网络递归学习点云局部区域的特征，缓解PointNet模型分割点云缺少局部信息的问题，但其捕获信息的能力仍然不足，缺少长距离上下文的聚合。

目前已出现一些针对变电站应用场景的点云分割方法，但这些方法都存在复杂度高、精确度低、梯度消失等问题。文献[21]在PointNet网络的基础上，引入多尺度残差结构，提出了残差结构多层感知（Residual structure Multilayer Perception, RES-MLP）模型，充分挖掘不同层次的特征，并提高对复杂特征的表征能力，实现了对变电站点云的语义分割，但该方法更依赖数据的特征，对于不同类型或变化较大的数据集可能表现不佳。文献[22]采用八叉树对点云进行体素化处理，并根据每个体素的点云密度进行点云重采样，采用均值漂移算法定位点云的中心轴，按照点云的形状特征进行区域生长，实现对变电站电缆点云的有效分割，但该方法使用八叉树体素化处理和区域生长算法会导致较高的计算复杂度和内存占用，特别是在处理大规模点云数据时，算法的性能较差，会出现处理速度较慢的问题。

变电站的结构通常复杂多样，包括各种设备、线路、建筑物等。设备和结构可能存在类别之间的相似性，例如不同类型的电线或设备在外观上可能非常接近，这对点云语义分割算法的精确度提出了较高要求。同时变电站具有大规模的点云数据，语义分割需要处理大量的数据点，如何降低算法复杂度也是一个挑战。

直接在点云上处理的分割方法精确度最高，能实现对变电站主设备点云的高精度语义分割，故本文针对变电站应用场景，在PointNet++算法的基础上，提出一种名为DI-PointNet的模型。首先引入由层归一化（Layer Normalization, LN）层、自注意力机制模块和前馈网络（Feed Forward Network, FFN）层组成的双层连续变换器模块（Double-Layer Consecutive Transformer, DLCTransformer），通过连续的Transformer模块进行变电站点云的关键点采样，增强不同电力设备点云之间的信息交互，扩大模型的有效感受野，高效地聚合长距离上下文；其次，采用分层键采样策略生成自注意力机制所需的键值，以此解决变电站大规模点云数量带来的内存消耗问题，降低算法复杂度；最后，引入基于残差连接和倒置瓶颈设计的倒置残差模块（Inverted Residual Module, InvResMLP），增强模型对变电站点云中复杂结构特征的提取能力，同时加速模型训练的收敛速度，减少资源的消耗，实现变电站主设备点云高精度语义分割。

1 DI-PointNet算法原理

1.1 PointNet++算法

PointNet++网络结构如图1所示。它是一个用于处理点云数据的深度学习算法，是PointNet算法的扩展和改进版本，增加了提取局部特征的网络结构，大大提高了模型泛化能力和鲁棒性。

PointNet++网络是编码-解码结构，其中编码部分为降采样结构，通过多个集合抽象（SetAbstraction, SA）模块实现多层降采样，从而得到不同规模的点云特征。其中SA模块由采样层（Subsample）、分组层（Grouping）和PointNet三层构成。采样层采用最远点采样（farthest point sampling）算法[23]实现从N个点中采样 width=14.25,height=13.5

个点；分组层以

个点为球心生成半径为R的球体，在球体区域内生成数量为K的点集，点云由此生成 width=14.25,height=13.5

个分组。通过采样层和分组层后，采用PointNet层进行区域特征提取，该层保留了原始PointNet的多层感知机和最大池化，并去除了原有的T-net结构，对点云进行局部特征提取后进行特征聚合，进而提取全局特征。

点云数据的分割任务实际是为原始点云的每个点分配一个语义标签，所以需要通过上采样方式，将提取的点的特征传播给在SA模块下采样过程中丢失的点。PointNet++算法利用基于距离插值[24]的分层特征传播（feature propagation）策略，将现有特征点上采样恢复为原始点云集合。

1.2 DI-PointNet算法

PointNet++的计算复杂性随着点云数量的增加而增加，在处理大规模点云时，模型的计算成本较高，需要大量的计算资源和时间；同时该算法在处理局部信息时存在一定的局限性，尤其是对于复杂的点云结构，可能会导致模型在某些情况下难以捕获细微的局部特征，这些缺点使得PointNet++不适用于变电站电力设备点云的分割任务中。

基于此，本文提出了DI-PointNet算法，该算法在PointNet++网络结构的基础上提出了三个改进。首先，变电站存在多种设备并且具有复杂的结构，对变电站点云进行语义分割需要考虑它们之间的关联和影响，故本文引入了双层连续变换器模块（DLCTransformer），通过双层的Transformer模块进行关键点采样，增强点云之间的信息交互，扩大有效感受野；其次，为了解决变电站大规模的点云数据带来的高计算成本问题，采用分层键采样策略，将点云数据分为原始稠密点云空间和经过最远点采样后形成的稀疏点云空间，并分别划分成多个不重叠的立体窗口，最终生成自注意力机制计算所需的键值，显著降低计算复杂度；最后，本文在网络中加入基于残差连接和倒置瓶颈设计的倒置残差模块（InvResMLP），增强模型对变电站点云中复杂结构特征的提取能力，同时可有效减少梯度消失问题，使算法更加鲁棒地应对变电站的复杂场景，提高变电站主设备点云语义分割的精确度。

DI-PointNet网络为编码-解码结构，其整体结构如图2所示。其中，上半部分为编码部分，主要对点云进行下采样并提高其特征维度，进行全局和局部特征提取；下半部分为解码部分，主要对点云进行上采样处理，将处理后的特征传播[25]至未采样点，该过程中点云数目恢复至原始数目，通道数据下降至低维。

网络的第一个多层感知机（Multilayer Perception, MLP）层用于提高输入点云数据的维度，再将处理后的点云数据输出到SA模块，该部分沿用了PointNet++中的采样和分组方法，然后经由DLCTransformer模块捕捉点云中不同点之间的关系和语义信息，接着通过InvResMLP模块的分组层和最后的MLP层进行残差处理，减少过拟合和梯度消失现象的发生。特征传播模块对特征处理后的点云数据进行插值处理，并和InvResMLP的数据做跳连拼接（skip connection）处理，最后完成点云语义分割任务。

1.2.1 双层连续变换器模块

变电站设备之间通常存在空间上的关联性，通过增强这些点之间的信息交互，可以提高分割的准确性。由于点云在自注意力机制中被划分成不同窗口，不同窗口独立地以相同方式工作，这导致模型在键值生成的过程中对远距离对象的信息获取范围有限，所以如果采用普通的Transformer模块，模型将受到有效感受野的限制。

本文引入DLCTransformer模块[26-27]，其结构如图3所示，主要由LN层、基于窗口的多头自注意力机制模块（Stratified Self Attention, SSA）、窗口偏移后的多头自注意力机制模块（Shifted SSA）和FFN层组成。通过连续的Transformer模块进行关键点采样，增强信息交互，使有效感受野显著扩大，进而高效地聚合长距离上下文。

图3中第二层Transformer模块是在SSA之后，对划分的点云窗口整体偏移0.5个单位窗口尺寸，即0.5Ldense和0.5Lsparse（Ldense和Lsparse的含义将在1.2.2节详细解释），获得Shifted SSA，此部分可以补充跨窗口点云的特征信息，增强对变电站复杂结构特征的提取能力，提高主设备点云语义分割的精确度。使用偏移窗口策略的DLCTransformer模块的特征计算式为

式中，

和

分别为第l个SSA和FFN模块的输出特征；SSA(·)和ShiftedSSA(·)分别表示基于窗口的多头自注意力机制和窗口偏移后的多头自注意力机制。

1.2.2 分层键采样

变电站点云数量庞大，直接应用全局自注意力机制会导致较大的内存消耗，因此本文使用基于窗口的自注意力机制，通过分层键采样策略来生成自注意力机制所需的键值，降低算法复杂度。

本文采用的分层键采样策略原理[27]如图4所示，其目的是生成DLCTransformer模块中自注意力机制所需的键值。首先，将变电站点云数据分成原始稠密点云空间和经过最远点采样后形成的稀疏点云空间；然后借鉴Swin Transformer的patch划分方法，将点云空间分别划分成多个不重叠的立体窗口，稠密点云空间划分出的每个窗口尺寸边长为Ldense，包含Kdense个稠密点，稀疏点云空间划分出的每个窗口尺寸边长为Lsparse，包含Ksparse个稀疏点；最后将这两种窗口下生成的键值取并集生成DLCTransformer自注意力机制计算所需的键值。分层键采样能够提高模型的感受野，同时聚合长距离上下文，实现变电站关联点云的信息交互。

假设点云被划分成不同窗口后的第w个窗口有kw个点云，自注意力机制的头数为Nh，每个头的维度为Nd，特征维度为C=Nh×Nd，输入该模块的点云 width=40.5,height=15.75

，则第w个窗口的自注意力表示为

式中，q、k、v分别为输入x经过对应的线性层Linearq、Lineark和Linearv后得到的值，q, k, v；A为注意力映射， width=54,height=14.25

；softmax(·)为激活函数；y为聚合特征， width=40.5,height=18

；Linear(·)为线性层，可实现线性变换； width=10.5,height=14.25

为输出特征，

。

式（2）是单个点云窗口中的计算过程，经过划分后的各个窗口均独立地按照该公式进行自注意力机制运算和特征处理。模型通过这种方式进行自注意力机制运算时，其内存复杂度仅为O(N/t×t2)= O(N×t)，其中N为输入点云的数量；t为每个窗口中点云数量的平均数。

1.2.3 倒置残差模块

变电站点云包含不同尺度的特征，模型需要能够捕捉到这些特征。同时在基于深度学习的点云语义分割模型中，梯度消失是一个常见问题，其会导致学习效率和训练速度降低。为解决上述问题，本文引入了InvResMLP模块[28]，其详细结构如图2中所示。

InvResMLP继承了PointNet++算法中经典SA模块的分组结构，并在输入和输出之间引入了一个类似于ResNet[29]的残差[30]连接，这有助于缓解梯度消失问题。此外，InvResMLP还采用了倒置瓶颈设计的MLP层，在增强模型对点云数据表征能力的同时，减小网络的宽度来降低计算复杂度。

残差连接和倒置瓶颈的设计可以帮助模型同时捕捉变电站点云不同尺度的特征。网络通过堆叠多个InvResMLP，实现捕捉更大范围的上下文信息，使得模型能够学习到更丰富的点云特征。

2 实验与结果分析

2.1 变电站关键点分割数据集

本文使用Avia激光雷达设备在保定市保北变电站等变电站现场采集了不同设备的点云图，原始数据包括变压器、开关设备、钢塔、绝缘子、维护设备和其他（主要为植被和建筑等）。训练集和测试集数据划分比例为8:2，数据集各类别点云数如表1和图5所示。

2.2 实验设置

为了在简化点云数据的同时实现噪声过滤，首先对原始输入点云进行网格采样，网格的大小设置为0.03 m。数据增强部分采用z轴旋转、缩放、扰动和颜色下降等方式。窗口大小初始值设为0.12 m，每个下采样层后的窗口大小加倍。

本文对DI-PointNet的训练使用交叉熵损失函数，Adam优化器，采用的超参数为：初始学习率为0.001，Batch Size=2，epochs=100。

为保证后续对比实验的合理性及准确性，本文所用对比算法的训练均使用与DI-PointNet相同的硬件平台、环境版本、损失函数、优化器、超参数及训练策略。训练条件配置见表2。

2.3 模型评价指标

本文使用平均交并比（mean Intersection over Union, mIoU）和总体精度（Overall Accuracy, OA）作为模型分割任务的评价指标，表达式分别为

式中，M为分割类别总数；FN为分割结果为负样本，但实际是正样本的数量；TN为分割结果为负样本，实际也为负样本的数量；FP为分割结果为正样本，但实际是负样本的数量；TP为分割结果为正样本，实际也为正样本的数量；下标m代表各分割类别。

2.4 实验结果分析

本文采用自制的变电站数据集对提出的DI-PointNet模型进行10次训练和测试，最终得到OA的平均值为90.1%，方差为0.062；mIoU的平均值为82.5%，方差为0.161。为保证后续对比实验的有效性和可靠性，本文对后续所用的算法模型均进行10次实验求出其评价指标的均值作为对比数据，实验结果如图6所示。

2.4.1 模块消融实验

为验证本文引入InvResMLP和DLCTransformer模块对PointNet++改进的有效性，本文进行了消融实验。在相同实验参数、训练函数和训练流程的前提下，在网络架构中依次加入InvResMLP和DLCTransformer模块，其中对DLCTransformer模块的测试分为有/无双层键采样策略两种实验情况，其实验结果见表3。

1）加入InvResMLP模块后，缓解了梯度消失，加速了模型训练收敛的速度，提高了模型对于点云整体语义结构的理解和学习能力，使得算法的OA从86.7%提高到88.3%，提高了1.6个百分点。

2）引入DLCTransformer模块（不采用分层键采样策略）后，提高了模型处理长距离依赖关系的能力，使得算法的mIoU从80.4%提高到81.3%，提高了0.9个百分点。

3）引入DLCTransformer模块同时采用分层键采样策略后，OA从86.9%提高到87.8%，提高了0.9个百分点；mIoU从81.3%提高到82.1%，提高了0.8个百分点。这是由于分层键采样策略可以提高模型的感受野，同时聚合长距离上下文，使Transformer模块更有效地捕捉全局语义结构，提高模型对变电站主设备点云整体信息的判断。

2.4.2 鲁棒性研究

为了验证模型的抗干扰性能，本文在测试阶段引入了多种干扰因素以量化模型的鲁棒性，分别从排列、旋转（z轴旋转90°、180°、270°）、平移（±0.2 m）、尺度变化（×0.8、×1.2）和抖动多个方面进行评估。

排列的变化涉及点云中点的重新排列，模拟了点云数据在捕获或传输过程中的不稳定性，通过引入排列干扰，可以测试模型对点的排列次序变化的鲁棒性；旋转和平移干扰模拟了传感器或设备在不同位置或朝向下捕获点云数据的情况，旋转和平移干扰有助于验证模型对于观察角度和位置变化的适应能力；由于点云数据可能在不同尺度下进行捕获，通过引入尺度变化干扰，可以检验模型能否有效地处理不同尺度的点云数据；抖动是指点云中的微小振动或噪声，这在实际采样中是常见的干扰，通过模拟抖动，可以测试模型对于噪声和振动的容忍度。

鲁棒性对比实验结果如图7所示，通过曲线分布可以看出平移（±0.2 m）对模型产生的影响最大。这是因为平移不仅会使点云中的点整体移动到新的位置，导致点的相对位置关系发生显著变化，而且也会使原本分开的语义实体在新位置上发生重叠或相互混淆，平移后产生的几何变化和语义混淆导致模型在分割任务中的性能下降。

本文提出的DI-PointNet在干扰因素的作用下，平均交并比的变化幅度最小，这表明该模型具备强鲁棒性，在面对平移、旋转、尺度变化和抖动等干扰时，能够保持稳定且准确的分割性能。

2.4.3 不同类型深度学习分割算法对比实验

不同类型深度学习分割算法对比实验结果见表4。表4中，GFLOPs为10亿次/s的浮点运算数，用于表征算法的计算量。由于篇幅的限制，本文分别将点云体素化、点云投影到二维平面和直接在点云上处理三种深度学习分割方法简称为体素化、投影至面和直接处理。

根据表4的实验结果可知，基于点云投影到二维平面类型算法的准确度在三种方法中最低，这是由于该方法对视角的选择和遮挡较为敏感，并且只能获取物体表面的信息，产生信息损失，造成分割精度较低。

体素化表示点云保留了原始点云的邻域结构，为分割效果带来了一定程度的提升，故准确度高于基于点云投影到二维平面类型的算法。但体素化本身会带来离散伪影和信息损失，同时该方法采用固定网格，容易导致数据划分错误而使得预测结果不准确，故准确度低于直接在点云上处理的方法。

基于体素和投影到二维平面的方法都存在严重的局限性，如空间信息丢失和结构分辨率下降。直接在点云上处理的方法有利于保存更多的点云空间信息，虽然该类方法对比前两类模型的复杂度相对较高，但直接在点云上处理的方法对于分割精确度的提升更为显著，适用于变电站点云语义分割任务。

2.4.4 主流深度学习算法对比实验

为验证本文提出的DI-PointNet算法比主流深度学习算法更适用于变电站点云分割，在构建的变电站点云数据集上对PointNet[19]、PointNet++[20]、DGCNN[32]、PointConv[33]、PVCNN[34]、SPLATNet[35]、PointTransformer[36]、RS-CNN[37]及SpiderCNN[38]采用相同的参数进行训练并测试，测试结果见表5。

可以看出，PointNet的OA和mIoU劣于其他算法，原因是该模型没有对点云进行局部特征处理，对大规模场景的分割效果较差，导致对变电站点云语义分割的精确度较低；PointNet++算法是较流行的分割算法之一，但不能有效地捕捉变电站点云中的关键特征，无法精确地分割主设备点云；PointConv主要关注点云数据的局部特征，对全局特征的建模相对较弱，并且该模型包含多个卷积层和反卷积层，这些层在上采样和下采样过程中需要执行大量的矩阵乘法和卷积操作，导致GFLOPs远高于其他模型。

DI-PointNet的OA为90.1%，mIoU为82.5%，均超过了现有主流深度学习算法，并且相较于其他算法，DI-PointNet的参数量少，运行速度快。该对比结果证明本文算法在变电站点云分割任务上优于其他主流深度学习算法，该模型的性能已经接近人工分割的准确性，成功地对变电站点云进行了精确分割。

2.4.5 电力领域典型点云分割算法对比实验

本文对其他同样针对电力领域的点云语义分割算法进行了实验对比，结果见表6。

算法2使用改进的自适应K-means聚类算法实现了对变电站电力设备点云的分割，但该模型的泛化能力不足，并且对初始聚类中心和聚类数量M的选择非常敏感，导致准确率较低。算法3的准确率最高，但该模型结合随机下采样和最远点下采样，在减少点云数量的同时引入了额外的计算负担，导致参数量和GFLOPs高于本文提出的DI-PointNet算法。

综上所述，该实验证明了相比于其他电力领域点云分割算法，本文提出的DI-PointNet对变电站主设备点云分割的效果最好。本文对比实验中不同算法对变电站点云的分割结果可视图详见附录。

3 结论

为实现对变电站主设备点云的准确分割，本文提出了DI-PointNet算法，并自制了变电站点云数据集。本文主要贡献及结论如下：

1）引入了双层连续变换器模块，通过双层Transformer模块进行关键点采样，增强点云之间的信息交互，扩大有效感受野。使用分层键采样策略，生成自注意力机制计算所需的键值，显著降低计算复杂度。在网络中加入基于残差连接和倒置瓶颈设计的InvResMLP模块，增强模型对变电站点云中复杂结构特征的提取能力，同时有效地减少梯度消失问题。

2）在多个变电站现场采集了不同设备的点云，并制作变电站点云数据集，原始数据包括变压器、开关设备、钢塔、绝缘子、维护设备和其他。

3）本文提出的DI-PointNet算法相比较于改进前，对变电站点云分割的OA值提高了3.4个百分点，同时降低算法复杂度，并且经过消融实验、鲁棒性实验与对比实验验证，所提模型的性能均优于其他主流深度学习算法及其他电力领域点云分割算法，已经接近人工分割的准确性，成功地对变电站点云进行了精确分割。

由于变电站点云数量庞大，难以从整体点云的视角观察到显著差异，故本文将可视化结果聚焦变压器及其附近的点云，并对存在差异的部分进行框选。附图1a为语义分割前的原始点云，附图1b～附图1u为对比实验中不同算法的可视化分割结果。不同算法的LOSS曲线对比如附图2所示。

[1] 王生杰, 马永福, 马国祥, 等.330 kV GIS外壳异常发热机理与改进措施研究[J/OL]. 高压电器, 2024: 1-11[2024-06-24]. https://kns.cnki.net/kcms/detail/61. 1127.tm.20240621.1536.002.html.

Wang Shengjie, Ma Yongfu, Ma Guoxiang, et al. Research on enclosure overheat mechanism and improvement measures of 330 kV GIS[J/OL]. High Voltage Apparatus, 2024: 1-11[2024-06-24]. https:// kns.cnki.net/kcms/detail/61.1127.tm.20240621.1536.002.html.

[2] 吴霖, 马飞越, 佃松宜, 等. 气体绝缘开关设备检测维护机器人控制系统设计[J]. 高压电器, 2025, 61(4): 187-193.

Wu Lin, Ma Feiyue, Dian Songyi, et al. Design of control system for GIS inspection and maintenance robot[J]. High Voltage Apparatus, 2025, 61(4): 187-193.

[3] 刘栋良, 詹成根, 屈峰, 等. 无人机17kW电机振动噪声分析与巡航转速下尖端噪声优化[J]. 电工技术学报, 2024, 39(6): 1749-1763.

Liu Dongliang, Zhan Chenggen, Qu Feng, et al. Vibration noise analysis and tip noise optimization of unmanned aerial vehicle 17kW motor at cruise speed [J]. Transactions of China Electrotechnical Society, 2024, 39(6): 1749-1763.

[4] Pei Shaotong, Sun Haichao. Structural design and simulation study of intelligent defect elimination equipment for high-voltage transmission line pin defects[J]. IET Generation, Transmission & Distribution, 2023, 17(24): 5366-5377.

[5] Pei Shaotong, Sun Haichao. Design of an intelligent transformer oil sampling system[J]. Electronics Letters, 2023, 59(22): e13038.

[6] 胡晨龙, 裴少通, 刘云鹏, 等. 基于LEE-YOLOv7的输电线路边缘端实时缺陷检测方法[J]. 高电压技术, 2024, 50(11): 5047-5057.

Hu Chenlong, Pei Shaotong, Liu Yunpeng, et al. Real-time defect detection method for transmission line edge end based on LEE-YOLOv7[J]. High Voltage Engineering, 2024, 50(11): 5047-5057.

[7] 贾惠彬, 武文瑞, 吴堃, 等. 基于异步整形机制的智能变电站通信队列调度策略[J]. 电工技术学报, 2024, 39(17): 5422-5433.

Jia Huibin, Wu Wenrui, Wu Kun, et al. Research on communication queue scheduling strategy for intelligent substations based on asynchronous shaping mechanism[J]. Transactions of China Electro-technical Society, 2024, 39(17): 5422-5433.

[8] 潘玺安, 艾欣, 胡俊杰, 等. 考虑网络安全约束的分布式智能电网边云协同优化调度方法[J]. 电工技术学报, 2024, 39(17): 6104-6118.

Pan Xian, Ai Xin, Hu Junjie, et al. Network security constrained distributed smart grid edge-cloud collaborative optimization scheduling[J]. Transactions of China Electrotechnical Society, 2024, 39(17): 6104-6118.

[9] Jiang X Y, Meier U, Bunke H. Fast range image segmentation using high-level segmentation primitives [C]//Proceedings Third IEEE Workshop on Applications of Computer Vision. WACV'96, Sarasota, FL, USA, 1996: 83-88.

[10] Xi Xiaohuan, Wan Yiping, Wang Cheng. Building boundaries extraction from points cloud using an image edge detection method[C]//2016 IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Beijing, China, 2016: 1270-1273.

[11] Besl P J, Jain R C. Segmentation through variable-order surface fitting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1988, 10(2): 167-192.

[12] Schnabel R, Wahl R, Klein R. Efficient RANSAC for point-cloud shape detection[J]. Computer Graphics Forum, 2007, 26(2): 214-226.

[13] 张烨, 李博涛, 尚景浩, 等. 基于多尺度卷积注意力机制的输电线路防振锤缺陷检测[J]. 电工技术学报, 2024, 39(11): 3522-3537.

Zhang Ye, Li Botao, Shang Jinghao, et al. Defect detection of transmission line damper based on multi-scale convolutional attention mechanism[J]. Transactions of China Electrotechnical Society, 2024, 39(11): 3522-3537.

[14] 金亮, 尹振豪, 刘璐, 等. 基于残差U-Net和自注意力Transformer编码器的磁场预测方法[J]. 电工技术学报, 2024, 39(10): 2937-2952.

Jin Liang, Yin Zhenhao, Liu Lu, et al. Magnetic field prediction method based on residual U-net and self-attention transformer encoder[J]. Transactions of China Electrotechnical Society, 2024, 39(10): 2937-2952.

[15] 陈光宇, 袁文辉, 徐晓春, 等. 基于残差图卷积深度网络的电网无功储备需求快速计算方法[J]. 电工技术学报, 2023, 38(17): 4683-4700.

Chen Guangyu, Yuan Wenhui, Xu Xiaochun, et al. Fast calculation method for grid reactive power reserve demand based on residual graph convolutional deep network[J]. Transactions of China Electro-technical Society, 2023, 38(17): 4683-4700.

[16] Maturana D, Scherer S. VoxNet: a 3D convolutional neural network for real-time object recognition [C]//2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Hamburg, Germany, 2015: 922-928.

[17] Wu Zhirong, Song Shuran, Khosla A, et al. 3D ShapeNets: a deep representation for volumetric shapes[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 2015: 1912-1920.

[18] Boulch A, Guerry J, Le Saux B, et al. SnapNet: 3D point cloud semantic labeling with 2D deep segmentation networks[J]. Computers & Graphics, 2018, 71: 189-198.

[19] Charles R Q, Hao Su, Mo Kaichun, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017: 652-660.

[20] Qi C R, Li Yi, Hao Su, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, CA, USA, 2017: 5105-5114.

[21] Gao Wei, Zhang Lixia. Semantic segmentation of substation site cloud based on seg-PointNet[J]. Journal of Advanced Computational Intelligence and Intelligent Informatics, 2022, 26(6): 1004-1012.

[22] Yuan Qianjin, Chang Jing, Luo Yong, et al. Automatic cables segmentation from a substation device based on 3D point cloud[J]. Machine Vision and Applications, 2022, 34(1): 9.

[23] Eldar Y, Lindenbaum M, Porat M, et al. The farthest point strategy for progressive image sampling[J]. IEEE Transactions on Image Processing, 1997, 6(9): 1305-1315.

[24] Talvitie J, Renfors M, Lohan E S. Distance-based interpolation and extrapolation methods for RSS-based localization with indoor wireless signals[J]. IEEE Transactions on Vehicular Technology, 2015, 64(4): 1340-1353.

[25] Hu Han, Hou Yongkuo, Ding Yulin, et al. V2PNet: voxel-to-point feature propagation and fusion that improves feature representation for point cloud registration[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2023, 16: 5077-5088.

[26] Liu Ze, Lin Yutong, Cao Yue, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, 2021: 10012-10022.

[27] Lai Xin, Liu Jianhui, Jiang Li, et al. Stratified transformer for 3D point cloud segmentation[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA, USA, 2022: 8500-8509.

[28] 杨文杰, 裴少通, 刘云鹏, 等. 基于改进PointNet++的输电线路关键部位点云语义分割研究[J]. 高电压技术, 2024, 50(5): 1943-1953.

Yang Wenjie, Pei Shaotong, Liu Yunpeng, et al. Research on semantic segmentation of point cloud for key parts of transmission lines based on improved PointNet++[J]. High Voltage Engineering, 2024, 50(5): 1943-1953.

[29] Wu Zifeng, Shen Chunhua, van den Hengel A. Wider or deeper: revisiting the ResNet model for visual recognition[J]. Pattern Recognition, 2019, 90: 119-133.

[30] Sandler M, Howard A, Zhu Menglong, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018: 4510-4520.

[31] Su Hang, Maji S, Kalogerakis E, et al. Multi-view convolutional neural networks for 3D shape recognition[C]//2015 IEEE International Conference on Computer Vision (ICCV), Santiago, Chile, 2015: 945-953.

[32] Wang Yue, Sun Yongbin, Liu Ziwei, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Transactions on Graphics, 2019, 38(5): 1-12.

[33] Wu Wenxuan, Qi Zhongang, Li Fuxin. PointConv: deep convolutional networks on 3D point clouds[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019: 9621-9630.

[34] Liu Zhijian, Tang Haotian, Lin Yujun, et al. Point-voxel CNN for efficient 3D deep learning[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems, Vancouver, BC, Canada, 2019: 965-975.

[35] Su Hang, Jampani V, Sun Deqing, et al. SPLATNet: sparse lattice networks for point cloud processing[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018: 2530-2539.

[36] Zhao Hengshuang, Jiang Li, Jia Jiaya, et al. Point transformer[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, 2021: 16239-16248.

[37] Liu Yongcheng, Fan Bin, Xiang Shiming, et al. Relation-shape convolutional neural network for point cloud analysis[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019: 8895-8904.

[38] Xu Yifan, Fan Tianqi, Xu Mingye, et al. SpiderCNN: deep learning on point sets with parameterized convolutional filters[C]//Computer Vision-ECCV 2018, Munich, Germany, 2018: 90-105.

[39] Chen Hui, Wang Tingting, Dai Zuoxiao, et al. Power equipment segmentation of 3D point clouds based on geodesic distance with K-means clustering[C]//2021 6th International Conference on Power and Renewable Energy (ICPRE), Shanghai, China, 2021: 317-321.

[40] Yu Hao, Wang Zhengyang, Zhou Qingjie, et al. Deep-learning-based semantic segmentation approach for point clouds of extra-high-voltage transmission lines [J]. Remote Sensing, 2023, 15(9): 2371.

[41] Zhao Wenbo, Dong Qing, Zuo Zhengli. A point cloud segmentation method for power lines and towers based on a combination of multiscale density features and point-based deep learning[J]. International Journal of Digital Earth, 2023, 16(1): 620-644.

[42] Liu Xiuning, Shuang Feng, Li Yong, et al. SS-IPLE: semantic segmentation of electric power corridor scene and individual power line extraction from UAV-based lidar point cloud[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2023, 16: 38-50.

[43] Chen Chi, Jin Ang, Yang Bisheng, et al. DCPLD-Net: a diffusion coupled convolution neural network for real-time power transmission lines detection from UAV-Borne LiDAR data[J]. International Journal of Applied Earth Observation and Geoinformation, 2022, 112: 102960.

High-Precision Semantic Segmentation of Point Clouds for Primary Equipment in Substations Based on DI-PointNet

（1. Hebei Provincial Key Laboratory of Power Transmission Equipment Security Defense North China Electric Power University Baoding 071003 China 2. State Grid Intelligence Technology Co. Ltd Jinan 250098 China）

Abstract In substation robot inspection tasks, high-precision semantic segmentation of 3D point cloud data is one of the key technologies. Traditional point cloud semantic segmentation algorithms have certain limitations, making it difficult to handle complex 3D scenes. Deep learning methods have compensated for the shortcomings of traditional point cloud semantic segmentation algorithms and have become the main method for achieving point cloud semantic segmentation. However, existing point cloud segmentation methods for substations face issues such as high complexity, low accuracy, and gradient vanishing. To address these issues and achieve accurate segmentation of the main equipment point cloud in substations, this paper proposes a high-precision semantic segmentation method for substation main equipment point clouds based on DI-PointNet.

Firstly, on the basis of the PointNet++ network structure, a double-layer consecutive transformer (DLCTransformer) module is introduced. Key points are sampled through the DLCTransformer to enhance information interaction between point clouds and expand the effective receptive field. Secondly, a hierarchical key sampling strategy is adopted. The point cloud data is divided into the original dense point cloud space and a sparse point cloud space formed after farthest point sampling. These are then divided into multiple non-overlapping 3D windows, ultimately generating key values required for self-attention mechanism calculations, thereby reducing computational complexity, improving the model’s receptive field, and aggregating long-range context to achieve information interaction of substation-associated point clouds. Finally, an inverted residual module (InvResMLP) based on residual connections and inverted bottleneck design is added to the network. This enhances the model’s ability to extract complex structural features from substation point clouds while effectively reducing the gradient vanishing problem, making the algorithm more robust in handling complex substation scenarios and improving the accuracy of semantic segmentation of substation main equipment point clouds.

Additionally, to validate the segmentation effectiveness of the algorithm, this paper uses Avia LiDAR equipment to collect point cloud images of different devices at substations such as the Baobei substation in Baoding City. The original data includes transformers, switchgear, steel towers, insulators, maintenance equipment, and others (mainly vegetation and buildings). To simplify the point cloud data while filtering noise, the original input point cloud is first subjected to grid sampling with a grid size of 0.03 m. Data augmentation methods such as z-axis rotation, scaling, perturbation, and color reduction are employed. The initial window size is set to 0.12 m and is doubled after each down-sampling layer. The DI-PointNet is trained using the cross-entropy loss function and Adam optimizer with the following hyperparameters: initial learning rate of 0.001, batch size of 2, and 100 epochs. To ensure the reasonableness and accuracy of the experiments, the comparative algorithms used in this paper are trained using the same hardware platform, environment version, loss function, optimizer, hyperparameters, and training strategies as DI-PointNet.

Through ablation experiments and comparative analysis, the DI-PointNet algorithm proposed in this paper improves the overall accuracy (OA) value of substation point cloud segmentation by 3.4 percentage points compared to before the improvement, while reducing algorithm complexity. The proposed algorithm outperforms other mainstream deep learning algorithms and other point cloud segmentation algorithms in the power sector. The performance of this algorithm is close to the accuracy of manual segmentation and can achieve precise segmentation of substation point clouds.

Keywords：Point cloud semantic segmentation, double-layer consecutive transformer, hierarchical key sampling, inverted residual, substation

国家电网有限公司总部管理科技项目资助（5500-202316168A-1-1-ZN）。