基于WSS-Pointnet的变电站点云弱监督语义分割方法

裴少通 孙海超 胡晨龙 王玮琦 兰 博

(华北电力大学河北省输变电设备安全防御重点实验室 保定 071003)

摘要 现有的变电站点云语义分割算法均采用完全监督学习,需要大量人工标注点云数据,导致分割任务耗时长且成本高昂。为解决这一问题,该文提出一种基于PointNet改进的弱监督语义分割PointNet(WSS-PointNet)算法。首先,通过构建多层降采样结构,结合采样层与分组层对输入点云数据进行多尺度特征提取,从而捕捉点云在不同尺度上的几何和拓扑信息。在此基础上,引入PointNet结构以进一步提取区域特征,优化局部特征整合与全局特征表示;针对粗粒度语义特征的优化,提出膨胀式语义信息嵌入与浸染式语义信息嵌入两种模块,分别采用“由内而外”和“由外而内”的信息传递策略对点云语义信息进行细致处理,两种嵌入机制均基于图卷积神经网络,通过捕捉局部连接模式与信息共享实现语义特征的高效传播。其次,构建变电站点云数据集,并对WSS-PointNet算法进行消融实验,同时与主流的完全监督学习算法和弱监督学习算法进行对比。经实验验证,WSS-PointNet相比于改进前将变电站点云分割的总体精度(OA)提高了10.3个百分点,平均交并比(mIoU)提高了10.1个百分点,平均准确率(mAcc)提高了10.5个百分点,同时在标注所需时间方面缩短了90%,接近完全监督算法中最好的分割效果。该模型可显著降低处理变电站点云数据的时间与成本,同时保持点云分割的高精度。

关键词:点云语义分割 弱监督方法 膨胀式语义信息嵌入 浸染式语义信息嵌入 变电站

0 引言

随着电网的发展以及变电站电压等级的提高,变电站的站区面积不断扩大,运行环境变得更加复杂[1],使得变电站现场设备的巡视范围和工作量变大,传统的巡检方式难以全面准确地完成巡检任务,给设备和电网安全运行带来各种隐患[2-3]。随着电力行业智能机器人的兴起[4],变电站智能巡检机器人可代替人工完成变电站设备的所有巡检作业。

变电站巡检机器人通常配备激光雷达及多种传感器,以实现站内自主导航功能[5]。激光雷达生成的点云包含位置及属性信息[6],这些点云需经过语义分割处理,将每个点进行分类或标记[7],以便机器人准确地理解变电站内各电力设备及其环境。因此,深入研究变电站点云语义分割算法对于智能电网的发展具有至关重要的作用。

点云语义分割方法按照监督方式可分为完全监督方法和弱监督(Weakly-supervised Semantic Seg- mentation, WSS)方法[8]。现有的主流分割方法为完全监督学习方法,包括点云体素化[9-10]、点云投影到二维平面[11]和直接在点云上处理[12-13]三种。虽然完全监督可以实现高精度的分割效果,但其对大规模逐点注释数据的依赖性极强,不仅耗费大量时间,还需投入非常多的人力。此外,依赖有限注释数据训练的模型往往无法提取足够多的判别性特征,从而影响其最终性能。

变电站的结构通常呈现复杂多样的特征,涵盖众多电力设备、线路、建筑物等元素。这些设备和结构在类别之间可能存在显著的相似性,例如,不同类型的电线或设备在外观上可能极为相似,这对点云语义分割算法的精确度提出了较高的挑战。此外,变电站拥有大规模的点云数据,语义分割任务需要处理海量数据点。现有的变电站点云语义分割算法[14]均采用完全监督学习,需要大量人工标注点云数据,导致分割任务耗时长且成本高昂。如何显著地降低数据处理的时间与成本,同时保持分割的高精度与高效率,是推动变电站点云分割技术走向实际应用的核心问题。

弱监督方法在减轻注释过程中的人力消耗方面展现出显著优势,成为点云语义分割领域的研究热点。该类算法可分为间接标注、有限点标注、预训练及伪标注三种类型。

对于间接标注方式,文献[15]提出SegGroup模型,通过层次化地将未标记的段分组到相关的附近已标记段中,生成点级伪标签,以便现有的点级监督分割模型可以直接使用这些伪标签进行训练。文献[16]提出通过空间结构多样性推理的主动学习模型(Spatial-Structural Diversity Reasoning-Active Learning, SSDR-AL),将原始点云聚合成超点,并选择最具信息量和代表性的点进行标签获取。文献[17]利用涂鸦标注的点云数据进行模型训练,并通过增强输入点云与金字塔局部语义上下文描述符进一步提高标签的质量。这些方法获得的间接标注耗时长且不能减轻其高昂的人力成本,并没有解决全监督方法带来的问题。

对于有限点标注方式,文献[18]通过比较当前预测与整体预测之间的差异,使用一致性约束增强点云预测的性能,并且利用增加熵正则化显著降低了预测类别重叠的程度,从而提高了预测性能。文献[19]引入了一个语义查询网络,该网络通过插值邻近点的特征以利用空间域中的稀疏弱标签信息,从而促进点之间的信息共享。文献[20]采用强制一致性约束,使模型能够有效捕捉点云的图拓扑结构,并促进了标记和未标记点的信息传播。有限点标注虽能减少标注耗费的时间及人力成本,但并未利用从点云派生的监督信号,导致分割效果不理想。

对于预训练及伪标注方式,文献[21]利用室外场景中的几何特征进行启发式预分割,以减少手动标注的工作量,并与标注流程协同设计了学习目标。文献[22]提出两种伪标注方法,一种从标记帧中提取全局语义信息,另一种从每个序列中提取动态信息,并通过将这两种方法生成的标签相结合形成更丰富的伪标签用于未标记帧。文献[23]提出伪标签自净化框架,通过设计置信度评分动态地选择可靠的标记点,并采用聚类技术来部分更新伪标签,从而为网络学习提供正确的监督。尽管现有的预训练及伪标注模型在标注时间和分割效果方面取得了相对平衡的结果,但其分割精度仍然低于完全监督学习方法。

在弱监督点云分割领域,实现语义特征的高效传播是一项重要挑战。现有的弱监督点云分割方法多采用单一的信息传递策略,难以适应变电站点云数据结构的复杂性和多样性。此外,这些方法未能充分捕捉点云中的局部连接模式,导致语义特征的传播效率不高,进而影响了点云分割的效果和准确性。

本文针对上述问题,首先通过构建多层降采样结构,结合采样层与分组层对输入点云数据进行多尺度特征提取,从而捕捉点云在不同尺度上的几何和拓扑信息。在此基础上,引入PointNet结构以进一步提取区域特征,优化局部特征整合与全局特征表示。针对粗粒度语义特征的优化,提出膨胀式语义信息嵌入与浸染式语义信息嵌入两种模块,分别采用“由内而外”和“由外而内”的信息传递策略对点云语义信息进行细致处理。两种嵌入机制均基于图卷积神经网络(Graph-Convolutional Neural network, GCN),通过捕捉局部连接模式与信息共享实现语义特征的高效传播。

1 WSS-Pointnet算法原理

1.1 PointNet算法

在当前主流的点云分割算法中,PointNet网络凭借其高度的可拓展性与优异的兼容性,被广泛应用于各类点云处理任务中。这种网络架构以直接处理点云数据为核心,采用多层感知机(Multi-Layer Perceptron, MLP)和全局最大池化操作,能够高效地提取点云的全局特征,同时保持输入点的排列不变性,为复杂场景下的分割任务提供了坚实的基础。因此,本文选择PointNet网络作为基础框架,并对其结构进行针对性的改进,以适配弱监督学习的需求。

PointNet网络结构如图1所示,该模型可直接处理原始点云数据,无需对点云数据进行体素化或渲染。该网络能够学习全局和局部点特征,为点云分类和分割任务提供了一种简单、高效的方法。

PointNet网络的输入为一帧完整点云数据的集合。输入数据首先与通过旋转网络学习得到的转换矩阵相乘,以实现数据对齐,确保模型对特定空间变换具有不变性。然后,利用多个多层感知机对各点云数据进行特征提取。特征提取后,通过一个旋转网络对特征进行进一步对齐,在特征的各个维度上执行最大池化操作,以获得最终的全局特征。对于分类任务,将全局特征输入多层感知机以预测最终的分类分数;对于分割任务,则将全局特征与之前学习到的各点云的局部特征进行拼接,再通过多层感知机得到每个数据点的分类结果。

width=230.15,height=130.55

图1 PointNet网络结构

Fig.1 PointNet network architecture

1.2 WSS-PointNet算法

本文提出的WSS-PointNet网络结构如图2所示。网络首先构建多层降采样结构,利用多个采样层和分组层对输入的点云数据进行处理,以获取不同尺度的点云特征表示。这种多尺度特征提取方法有助于捕捉点云数据在各个尺度上的几何和拓扑信息。其次,在经过采样和分组处理的点云特征之上,引入PointNet结构以进一步提取区域特征。该PointNet层保留了原始PointNet架构中的多层感知机(MLP)和最大池化操作,并去除了T-net结构,以简化网络并降低计算复杂度。最后,通过特征聚合策略,将局部特征整合以形成全局特征表示。这一过程不仅保留了点云的局部细节,而且通过全局特征的提取,增强了模型对整个点云场景的理解和识别能力。通过这种方式,能够有效地从点云数据中学习到丰富的特征信息,为后续的网络架构提供粗粒度语义特征。

width=488.65,height=276.5

图2 WSS-PointNet网络结构

Fig.2 WSS-PointNet network architecture

在提取粗粒度语义特征后,本文提出采用两种语义信息嵌入机制:膨胀式语义信息嵌入和浸染式语义信息嵌入[24],分别通过“由内而外”与“由外而内”的信息传递策略,对点云特征进行细致的优化处理。这两类语义信息嵌入结构均采用了图卷积神经网络(GCN),第一层GCN能够捕捉点云数据中的局部连接性模式,并共享两个网络结构间的有效信息;第二层GCN可分别实现形态学膨胀与浸染,丰富点云语义特征。

在训练阶段,膨胀式语义信息嵌入网络利用全局平均池化(Global Average Pooling, GAP)层来生成对应输入场景的语义分类标签,从而为点云中的每一个3D点赋予场景级别的语义属性;浸染式语义信息嵌入网络则通过引入擦除掩码的策略,进一步提升点特征的区分能力。在推理阶段,这两个语义信息嵌入网络分别依托物理学中的膨胀与浸染原理,在点云的局部邻域内实现语义信息的有效传递,并通过融合两个网络预测得到的特征,最终生成用于点云分割的特征掩码。

为方便后续对网络原理的描述,设原始点云数据Po={pn; n=1, 2,width=12,height=8, N},其中N为点云中点的数量,pn∈RF且包含了三维坐标(x, y, z)以及视觉特征,F为特征维度。本文用于训练弱监督点云语义分割模型的变电站点云数据集被构建为Pt={Po, Y},其中Y为点云Po的场景级语义标签,Y={yc; c=1, 2,width=12,height=8, C},C为输入点云场景中的语义类别数。类别c的语义标签yc采用one-hot编码形式,即yc∈{0, 1}。

1.2.1 膨胀式语义信息嵌入

弱监督分割过程中往往存在激活不完全的现象,针对该问题,本文提出一种“由内而外”的信息传播策略。该策略借鉴了形态学中的膨胀操作,通过将前景区域中的语义信息有效地扩散至背景区域,从而增强模型对于前景区域中具有高度区分性点的语义信息的利用效率。

膨胀式语义信息嵌入结构首先采用图卷积网络层来模拟每个邻域点集中的区域连接模式,随后引入膨胀图卷积层来扩大信息传播的感受野。膨胀图卷积层以中心点为基础,通过其下一个最近邻点构建的膨胀图实施卷积操作,确保每次卷积仅涉及邻域内的特定点集。

本文构建了一个膨胀图width=65,height=21来描述点云的三维数据结构,其中V={vn; n=1, 2,width=12,height=8, N}为顶点集,width=76,height=18为边集,width=39,height=15表示点vn与其下一层最近邻点vm的连接关系,M为邻域NK (vn)中距离vn最远的点的数量,K为邻域NK (vn)中顶点的数量,上角标“+”表示下一个最近邻关系。对于一个中心点vn,其下一个最近邻集合width=24,height=17={vm; m=1, 2,width=12,height=8, M; MK}是由邻域NK (vn)中距离vn最远的M个点构成的。膨胀关系示意图如图3所示,膨胀图卷积表达式为

width=74,height=21 (1)

式中,Q为图卷积网络之后的特征;F为图卷积网络之前的特征;W为可学习参数;width=22,height=17为中心点的下一个最近邻集构成的矩阵;s为激活函数。

为了使膨胀式语义信息嵌入模块具备非线性映射能力,本文采用两层图卷积网络的层次化结构实现对点云数据中语义信息的深入挖掘,并增强网络对局部几何结构的感知能力,即

width=211.2,height=120.85

(a)最近邻近点关系 (b)下一个最近邻近点关系

图3 膨胀关系示意图

Fig.3 Dilation relationship schematic diagram

width=143,height=23 (2)

式中,Qd为经过膨胀操作后的特征;width=21,height=15width=23,height=15分别为第一层和第二层图卷积网络的可学习参数。

该模块采用全局平均池化(GAP)层,将经过膨胀式嵌入处理的点特征Qd映射至输入点云场景的语义标签width=11,height=13.95,并将最小化预测语义标签width=11,height=13.95与实际场景分类标签Y之间的多标签损失作为目标学习函数,表达式为

width=145,height=67 (3)

式中,width=13,height=15为第c个预测语义标签。

1.2.2 浸染式语义信息嵌入

在计算类激活图(Class Activation Map)时经常会过度激活,因此,本文提出一种“由外向内”的信息传播策略,通过将背景区域中的语义信息扩散至前景区域来缓解这一问题。“由外向内”的传播机制能够帮助弱监督分割模型有效地利用背景点的语义信息,从而增强前景区域中弱判别点的类别定位能力,此过程类似于形态学中的浸染操作。

具体来讲,过度激活通常是由局部点之间存在的不合理的上下文关联导致的,该方法通过擦除部分点的特征表示,使模型能够在每次训练中重新捕获局部点的上下文信息,该过程可表达为

width=143,height=23 (4)

式中,Qe为经过浸染式操作后的特征;width=22,height=17为中心点的最近邻集构成的矩阵;上角标“-”表示当前最近邻关系。

浸染式语义信息嵌入模块首先将浸染式嵌入的特征Qe与场景语义标签Y进行矩阵乘法运算,以构建点级类别表示PE,即

width=84,height=17 (5)

式中,softmax为激活函数,可确保点级类别表示的数值稳定性和概率分布特性。

浸染关系示意图如图4所示。为了模拟真实世界中数据的不完整性和不确定性,该模块引入随机矩阵掩码ME,以随机擦除PE中的部分语义信息元素。通过这种方式,模型被迫在训练过程中适应信息的不完整性,从而增强其泛化能力。部分擦除后的语义信息width=13.95,height=17的独热编码表示为

width=93,height=17 (6)

式中,argmax为最大值索引函数。

width=216,height=109.55

图4 浸染关系示意图

Fig.4 The erasure of semantic information in point clouds

使用width=13.95,height=17对浸染式语义信息嵌入模块的训练过程进行监督,并通过交叉熵损失函数来优化。交叉熵损失函数表达式为

width=147,height=33 (7)

训练阶段中,整个网络的损失函数为

width=78,height=17 (8)

式中,a为常数,用于平衡分类损失和分割损失,本文取a=0.000 3。

2 实验与结果分析

2.1 变电站点云数据集

本文采用Avia激光雷达设备在河北邢台变电站等变电站现场进行点云数据采集,原始数据集涵盖变压器、开关设备、杆塔、导线、监测设备等关键电力设施,以及植被和建筑物等其他环境要素。

为了减少模型在训练过程中的过拟合现象,提高模型的泛化能力,本文引入姿态变换、点抖动以及属性注意力机制[25]三种方式进行数据增强,有效地提高训练数据的多样性。

2.1.1 姿态变换和点抖动

点云Po可以被分解为坐标部分Px和属性部分PatPx用于场景级变换,包括随机旋转Tr和镜像变换T m。其中随机旋转选取z轴为旋转轴,镜像变换选择y轴作为镜像轴,具体表示为

width=109,height=101 (9)

式中,width=13.95,height=17为旋转后的点云;width=17,height=17为镜像后的点云;q为绕z轴的旋转角;diag(·)为对角矩阵。

通过引入高斯噪声以构建位移矩阵,进而实现点云数据的抖动效应,其中高斯噪声的均值为0.01,方差为1.0,即

width=54,height=17 (10)

式中,width=13.95,height=17为抖动后的点云;width=13,height=13.95为引入高斯噪声后的位移矩阵。

2.1.2 点属性注意力机制

姿态变换和点抖动虽然提高了训练数据的多样性,但难以有效地处理属性差异问题。本文在前两种数据增强方式的基础上引入了点属性注意力机制,用于动态学习输入属性的权重。

首先将经过姿态变换和点抖动增强后的坐标部分Px与原先的属性部分Pat进行拼接,形成新的点云集Pc,然后使用带有可学习参数Qa的多层感知机对Pc进行映射,即

width=72,height=63 (11)

式中,s为映射响应;Fa为映射函数;bi为第i个通道的注意力分数(注意力权重);d为映射响应s的特征维度。则经过数据增强后的点云数据为

width=103,height=35 (12)

式中,b为注意力分数构建的对角矩阵。

经过数据增强处理,点云数据总量达到4 484 089个,其中由增强过程产生的点云数据占总数据量的22%。增强后的点云数据被进一步划分为训练集和测试集,其分配比例为8width=6,height=112,具体分布情况如图5所示。

width=198.25,height=155.4

图5 数据集各类别点云数对比

Fig.5 Comparison of the number of point clouds for each category in the dataset

2.2 模型评价指标

本文使用总体精度(Overall Accuracy, OA)、平均交并比(mean Intersection over Union, mIoU)和平均准确率(mean Accuracy, mAcc)作为模型分割任务的评价指标,具体表达式分别为

width=163,height=30 (13)

width=164,height=33 (14)

width=192,height=33(15)

式中,width=21,height=15width=20,height=15width=22,height=15width=22,height=15分别为预测点的真正例、假正例、假负例和真负例的数量。

2.3 实验设置

对WSS-PointNet的训练使用交叉熵损失函数,Adam优化器,采用的超参数为:初始学习率为0.001,批量大小(Batch Size)为4,轮次(epochs)为100。训练平台的配置参数见表1。为确保后续对比实验的合理性,本文所采用的对比算法训练均在与WSS-PointNet相同的硬件平台、环境版本、损失函数、优化器、超参数及训练策略下进行。

在文献[25]中,针对室内点云数据集的标签量,选取了1%和10%作为实验的关键条件指标。变电站点云数据中的环境背景点云所占比例相对较低,而需进行精确分割的电力设备及其他关键构成部分的点云占比相对较高,有效点云和背景点云的比例接近室内点云数据集,因此本文选取1%和10%的标签量作为后续弱监督算法对比实验的基准条件。进一步地,文献[26]探讨了标签量对弱监督模型分割性能的影响,实验结果表明,当标签量超过10%后,其对模型分割性能的影响趋于平缓,故本文在进行对比实验时,未将超过10%标签量的情况纳入基准条件。

表1 训练条件配置

Tab.1 Training condition configuration

参 数数值(类型) CPUIntel E5-2680 v4 主频/GHz2.4 GPUNVIDA RTX2080ti+NVIDA Tesla P40 内存/GB32 硬盘/TB1 操作系统Ubuntu20.04 深度学习平台Pytorch

2.4 主流算法模型对比实验

2.4.1 完全监督算法语义分割对比实验

本文首先选取完全监督算法中若干主流网络结构,包括PointNet[12]、PointNet++[13]、动态图卷积神经网络(Dynamic Graph Convolutional Neural Network, DGCNN)[27]、基于局部和全局结构(Exploiting Local and Global Structure, ELGS)[28]、RSNet[29]、PointCNN[30]和KPConv[31],对2.1节构建的变电站点云数据集进行分割实验,结果见表2。

表2 完全监督算法对比实验结果

Tab.2 Fully supervised algorithm comparative experiment results (%)

模型OAmIoUmAcc PointNet74.965.069.1 PointNet++76.066.570.4 DGCNN77.469.873.2 ELGS79.170.276.9 RSNet80.271.377.1 PointCNN84.775.080.3 KPConv86.375.982.8

PointNet和PointNet++虽然开创性地提出了直接处理点云数据的方法,但其网络结构相对简单,在特征提取的深度和广度上均不如KPConv和PointCNN,因此这两个模型在分割效果上表现欠佳。KPConv模型采用了基于核的点卷积操作,具备更深的网络层次和更复杂的特征提取机制,能够有效地捕捉局部与全局特征,因此在所有评价指标上均表现出色。

2.4.2 弱监督算法语义分割对比实验

本文在主流的弱监督算法中选择SCF-Net[32]、DLA-Net[33]、Baseline[34]、扰动自蒸馏(Perturbed Self-Distillation, PSD)[26]、SQN[19]、WSSS-ST[35]模型进行对比实验,结果见表3。

表3 弱监督算法对比实验结果

Tab.3 Weakly supervised algorithm comparative experiment results (%)

模型标签量OAmIoUmAcc SCF-Net174.363.668.0 1077.065.970.1 DLA-Net176.864.069.3 1079.967.372.0 Baseline177.166.871.3 1080.768.473.9 PSD179.669.572.5 1081.470.074.2 SQN180.069.473.1 1082.271.275.0 WSSS-ST181.572.075.4 1083.073.777.8 WSS-PointNet183.973.077.3 1085.275.179.6

由表3可知,增加标签量(从1%到10%)显著地提升了所有模型的性能,表明更多的标签信息有助于模型更准确地学习数据特征,从而提高分割精度。

在标签量为1%和10%的实验条件下,SCF-Net模型的表现显著低于其他对比模型。这一现象主要归因于SCF-Net的设计初衷,即其侧重于从大规模点云数据中提取空间上下文特征。然而,该模型在处理细节特征或小尺度对象时存在一定的局限性。相较于其他模型,SCF-Net在捕捉小尺度特征方面的能力相对不足,这直接导致了其在本实验中的分割效果不如其他模型。

本文提出的WSS-PointNet模型的各项评估指标(包括OA、mIoU和mAcc)在所有对比的弱监督算法中均表现出最高的性能。相比完全监督算法KPConv,WSS-PointNet在分割效果上较为接近。在仅使用10%标签量的情况下,WSS-PointNet的OA指标仅比KPConv低1.1个百分点,但在标注所需时间方面缩短了90%,大幅度降低了标注所需的时间和人工成本。

2.4.3 模块消融实验

为验证本文引入膨胀式语义信息嵌入和浸染式语义信息嵌入模块对变电站点云分割的有效性,本节进行了消融实验。在相同实验参数、训练函数和训练流程的前提下,在网络架构中依次加入膨胀式语义信息嵌入和浸染式语义信息嵌入模块,实验结果见表4。

表4 消融实验结果

Tab.4 Ablation experiment results (%)

膨胀式语义信息嵌入浸染式语义信息嵌入OAmIoU 76.166.0 √80.769.4 √77.671.3 √√85.275.1

在未加入语义信息嵌入模块的情况下,网络通过多尺度特征提取、PointNet层以及特征聚合策略获取了点云的粗粒度语义特征,OA为76.1%,mIoU为66.0%。这表明基础网络能够有效地提取和整合点云的局部和全局特征,但在细粒度语义信息的传播和局部区域的精确划分上仍存在不足。

单独引入膨胀式语义信息嵌入模块后,OA提高4.6个百分点,mIoU提升3.4个百分点。这一显著提升得益于膨胀式嵌入模块通过全局平均池化(GAP)生成场景级别的语义分类标签,使每个点均具备全局语义属性。这种“由内而外”的信息传播策略有效地扩展了点云中局部邻域的语义信息,弥补了基础模型中对场景全局特征传递不足的问题,提升了整体分割的精度。

单独引入浸染式语义信息嵌入模块后,OA提高1.5个百分点,mIoU提高5.3个百分点。相比膨胀式嵌入模块,浸染式嵌入在mIoU指标上的提升更为显著,这是因为浸染式模块采用了“由外而内”的信息传递策略,并通过擦除掩码策略增强了点特征的区分能力,尤其在类别边界区域的分割中表现出色,从而显著地提升了类别区域的准确性。

在同时加入膨胀式和浸染式语义信息嵌入模块后,OA和mIoU均提高9.1个百分点。这一结果表明两种嵌入机制具有显著的互补性:膨胀式嵌入通过全局语义属性增强了点云的场景理解能力,而浸染式嵌入则进一步优化了局部特征的精细区分。联合使用两种机制,既能实现全局到局部的语义信息传递,又能加强类别边界的识别,从而显著地提升了分割性能。

2.4.4 数据增强实验

为验证引入的数据增强策略对模型分割性能的优化作用,本节开展了数据增强实验。在保持实验参数、训练函数和训练流程不变的前提下,依次引入姿态变换、点抖动以及点属性注意力机制三种数据增强手段对模型进行训练,实验结果见表5。

表5 数据增强实验结果

Tab.5 Data augmentation experiment results (%)

姿态变换点抖动点属性注意力机制OAmIoU 83.673.8 √83.874.3 √83.974.2 √84.274.0 √√√85.275.1

在点云语义分割任务中,数据的代表性对模型性能具有关键作用。若缺乏数据增强策略,训练过程中所使用的数据可能无法充分涵盖变电站场景的多样性,从而导致模型在处理未见过的数据时表现出明显的性能下降。

单独采用姿态变换策略时,OA提高0.2个百分点,mIoU提高0.5个百分点,这一结果表明姿态变换策略能够有效地提高模型对于不同姿态下目标的识别能力,增强模型的泛化性能。

单独采用点抖动策略时,OA提高0.3个百分点,mIoU提高0.4个百分点,这是因为点抖动策略通过随机扰动点的位置,模拟了传感器采集过程中可能存在的噪声,从而增强了模型在噪声干扰下的鲁棒性。

单独采用点属性注意力机制时,OA提高0.6个百分点,mIoU提高0.2个百分点,原因在于点属性注意力机制能够捕捉点云中几何特征与属性特征之间的关联,突出语义分割任务中更具辨识性的关键特征,并使模型能够学习到更深层次的特征表达,提高了对复杂场景中类别区分的准确性。

当综合运用三种数据增强策略时,OA提高1.6个百分点,mIoU提高1.3个百分点。结果表明,三种数据增强策略从不同角度优化了数据特性,形成了互补作用,联合应用这些策略有效地扩展了训练数据的分布,使模型能够更好地适应变电站场景中的复杂变化。

2.5 邻近点数量K对模型的影响

在构建邻接矩阵时,增加邻近点的数量意味着能够聚合更多的特征信息。然而,若邻域过大,则可能包含具有显著不同语义信息的点,这将削弱模型的分割效果。为了深入研究邻近点数量对模型性能的影响,本节通过调整邻近点的数量(5~30)进行了一系列实验,结果如图6所示。从图6可以观察到,当邻近点数量从5增加到18时,模型的整体性能呈现平稳增长的趋势,并在邻近点数量为18时达到峰值;然而,当邻近点数量超过18时,模型的整体性能急剧下降。

width=180.25,height=148.45

图6 邻近点数量K对mIoU指标的影响

Fig.6 The impact of the number of neighboring points K on the mIoU metric

3 结论

本文为实现对变电站点云的准确分割,提出了WSS-PointNet算法,并自制了变电站点云数据集,主要贡献及结论如下:

1)引入膨胀式和浸染式语义信息嵌入模块,分别采用“由内而外”和“由外而内”的信息传递策略。膨胀式嵌入模块通过全局平均池化层赋予点云场景级别的语义属性,增强了全局信息的传播能力;浸染式嵌入模块利用擦除掩码策略提高了点特征的区分能力,特别是在类别边界的精确分割方面表现突出。

2)在多个变电站现场采集了不同设备的点云制作变电站点云数据集,原始数据包括变压器、开关设备、杆塔、导线、监测设备和其他。

3)所提WSS-PointNet算法相比较于改进前将变电站点云分割的OA值提高了10.3个百分点,mIoU提高了10.1个百分点,mAcc提高了10.5个百分点,同时在标注所需时间方面缩短90%,并且经过消融实验与对比实验验证,所提算法接近完全监督算法中最好的分割效果。该模型显著地降低了处理变电站点云数据的时间与成本,同时保持了分割的高精度。

在实际应用过程中,变电站部分设备区域可能因遮挡或传感器性能受限而未能被有效捕获,导致点云数据出现缺失,进而影响分割的精确度。同时,变电站的点云数据量庞大且密度不均,处理这类大规模高密度数据需要消耗更多的计算资源和时间,这在一定程度上制约了分割速度。在未来的研究中,可以着重于开发和探索新型传感技术或传感器融合策略,旨在提升对遮挡区域的穿透能力以及数据捕获的完整性。同时,设计轻量化的分割模型,通过减少模型参数和计算复杂度,以适应边缘计算环境和有限的计算资源,是提升点云数据处理效率的关键研究方向。

参考文献

[1] 贾惠彬, 武文瑞, 吴堃, 等. 基于异步整形机制的智能变电站通信队列调度策略[J]. 电工技术学报, 2024, 39(17): 5422-5433.

Jia Huibin, Wu Wenrui, Wu Kun, et al. A communica- tion queue scheduling strategy for intelligent substations based on asynchronous shaping mechanism [J]. Trans- actions of China Electrotechnical Society, 2024, 39(17): 5422-5433.

[2] 刘刚, 胡万君, 刘云鹏, 等. 降阶技术与监测点数据融合驱动的油浸式变压器绕组瞬态温升快速计算方法[J]. 电工技术学报, 2024, 39(19): 6162-6174.

Liu Gang, Hu Wanjun, Liu Yunpeng, et al. A fast calculation method for transient temperature rise of oil immersed transformer windings driven by fusion of order reduction technology and monitoring point data[J]. Transactions of China Electrotechnical Society, 2024, 39(19): 6162-6174.

[3] 雷蕾潇, 何怡刚, 姚其新, 等. 基于变权属性矩阵的变压器零样本故障诊断技术[J]. 电工技术学报, 2024, 39(20): 6577-6590.

Lei Leixiao, He Yigang, Yao Qixin, et al. Zero-shot fault diagnosis technique of transformer based on weighted attribute matrix[J]. Transactions of China Electrotechnical Society, 2024, 39(20): 6577-6590.

[4] 姜骞, 刘亚东, 严英杰, 等. 面向高变倍场景的变电站巡检机器人云台相机对准方法[J]. 中国电机工程学报, 2024, 44(8): 3337-3347.

Jiang Qian, Liu Yadong, Yan Yingjie, et al. Substa- tion inspection robot PTZ camera alignment method for high zoom scenes[J]. Proceedings of the CSEE, 2024, 44(8): 3337-3347.

[5] 普子恒, 陈志刚, 史星涛, 等. 考虑合成电场影响的换流站直流场巡检机器人路径优化[J]. 高压电器, 2023, 59(5): 178-184, 192.

Pu Ziheng, Chen Zhigang, Shi Xingtao, et al. Path optimization of DC field patrol inspection robot in converter station considering the influence of synthetic electric field[J]. High Voltage Apparatus, 2023, 59(5): 178-184, 192.

[6] 杨帆, 吴涛, 郝翰学, 等. 基于谱图理论的变压器区域大规模点云轻量化方法[J]. 电工技术学报, 2024, 39(23): 7528-7541.

Yang Fan, Wu Tao, Hao Hanxue, et al. Large scale point cloud lightweight method for power transformer area based on spectral graph theory[J]. Transactions of China Electrotechnical Society, 2024, 39(23): 7528-7541.

[7] 裴少通, 孙海超, 孙志周, 等. 基于DI-PointNet的变电站主设备点云高精度语义分割方法[J]. 电工技术学报, 2025, 40(9): 2917-2930.

Pei Shaotong, Sun Haichao, Sun Zhizhou, et al. High-precision semantic segmentation of point clouds for primary equipment in substations based on DI-PointNet[J]. Transactions of China Electrotechnical Society, 2025, 40(9): 2917-2930.

[8] Maturana D, Scherer S. VoxNet: a 3D Convolutional Neural Network for real-time object recognition[C]// 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Hamburg, Germany, 2015: 922-928.

[9] Wu Zhirong, Song Shuran, Khosla A, et al. 3D ShapeNets: a deep representation for volumetric shapes[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 2015: 1912-1920.

[10] Boulch A, Guerry J, Le Saux B, et al. SnapNet: 3D point cloud semantic labeling with 2D deep segmentation networks[J]. Computers & Graphics, 2018, 71: 189-198.

[11] Charles R Q, Hao Su, Mo Kaichun, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017: 77-85.

[12] Qi C R, Yi Li, Su Hao, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[C]//NIPS'17: Proceedings of the 31st Interna- tional Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 5105-5114.

[13] Gao Wei, Zhang Lixia. Semantic segmentation of substation site cloud based on seg-PointNet[J]. Journal of Advanced Computational Intelligence and Intelligent Informatics, 2022, 26(6): 1004-1012.

[14] Yuan Qianjin, Chang Jing, Luo Yong, et al. Automatic cables segmentation from a substation device based on 3D point cloud[J]. Machine Vision and Applications, 2022, 34(1): 9.

[15] Tao An, Duan Yueqi, Wei Yi, et al. SegGroup: seg-level supervision for 3D instance and semantic segmentation[J]. IEEE Transactions on Image Processing, 2022, 31: 4952-4965.

[16] Shao Feifei, Luo Yawei, Liu Ping, et al. Active learning for point cloud semantic segmentation via spatial-structural diversity reasoning[C]//Proceedings of the 30th ACM International Conference on Multimedia, Lisbon, Portugal, 2022: 2575-2585.

[17] Unal O, Dai Dengxin, Van Gool L. Scribble- supervised LiDAR semantic segmentation[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA, USA, 2022: 2687-2697.

[18] Wang Puzuo, Yao Wei. A new weakly supervised approach for ALS point cloud semantic segmentation [J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 188: 237-254.

[19] Hu Qingyong, Yang Bo, Fang Guangchi, et al. SQN: weakly-supervised semantic segmentation of large- scale 3D point clouds[C]//17th European Conference, Computer Vision-ECCV 2022, Tel Aviv, Israel, 2022: 600-619.

[20] Zhang Renrui, Wang Liuhui, Qiao Yu, et al. Learning 3D representations from 2D pre-trained models via image-to-point masked autoencoders[C]//2023 IEEE/ CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada, 2023: 21769-21780.

[21] Liu Minghua, Zhou Yin, Qi C R, et al. LESS: label-efficient semantic segmentation for LiDAR point clouds[C]//17th European Conference, Computer Vision-ECCV 2022, Tel Aviv, Israel, 2022: 70-89.

[22] Liu Jinxian, Chen Ye, Ni Bingbing, et al. Joint global and dynamic pseudo labeling for semi-supervised point cloud sequence segmentation[J]. IEEE Trans- actions on Circuits and Systems for Video Technology, 2023, 33(10): 5679-5691.

[23] Li Junfeng, Yan Fei, Liu Yisha, et al. Weakly supervised semantic segmentation for point clouds with self-purification on pseudo labels[C]//2023 13th International Conference on Information Science and Technology (ICIST), Cairo, Egypt, 2023: 100-107.

[24] Xue Wenhao, Yang Yang, Li Lei, et al. Weakly supervised point cloud segmentation via deep morphological semantic information embedding[J]. CAAI Transactions on Intelligence Technology, 2024, 9(3): 695-708.

[25] Su Yanfei, Cheng Ming, Yuan Zhimin, et al. Multistage scene-level constraints for large-scale point cloud weakly supervised semantic segmentation [J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-18.

[26] Zhang Yachao, Qu Yanyun, Xie Yuan, et al. Perturbed self-distillation: weakly supervised large- scale point cloud semantic segmentation[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, 2021: 15500- 15508.

[27] Wang Yue, Sun Yongbin, Liu Ziwei, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Transactions on Graphics, 2019, 38(5): 1-12.

[28] Wang Xu, He Jingming, Ma Lin. Exploiting local and global structure for point cloud semantic segmenta- tion with contextual point representations[C]// NIPS’19: Proceedings of the 33rd International Conference on Neural Information Processing Systems, Vancouver, Canada, 2019: 4571-4581.

[29] Wang Junjue, Zhong Yanfei, Zheng Zhuo, et al. RSNet: the search for remote sensing deep neural networks in recognition tasks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(3): 2520-2534.

[30] Li Yangyan, Bu Rui, Sun Mingchao, et al. PointCNN: convolution on X-transformed points[C]//NIPS'18: Proceedings of the 32nd International Conference on Neural Information Processing Systems, Montreal, Canada, 2018: 828-838.

[31] Thomas H, Qi C R, Deschaud J E, et al. KPConv: flexible and deformable convolution for point clouds[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea, 2019: 6410-6419.

[32] Fan Siqi, Dong Qiulei, Zhu Fenghua, et al. SCF-net: learning spatial contextual features for large-scale point cloud segmentation[C]//2021 IEEE/CVF Confe- rence on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2021: 14499-14508.

[33] Su Yanfei, Liu Weiquan, Yuan Zhimin, et al. DLA-Net: learning dual local attention features for semantic segmentation of large-scale building facade point clouds[J]. Pattern Recognition, 2022, 123: 108372.

[34] Hu Qingyong, Yang Bo, Xie Linhai, et al. RandLA-net: efficient semantic segmentation of large- scale point clouds[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2020: 11105-11114.

[35] Yin Chao, Yang Bo, Cheng J C P, et al. Label- efficient semantic segmentation of large-scale industrial point clouds using weakly supervised learning[J]. Automation in Construction, 2023, 148: 104757.

A Weakly Supervised Semantic Segmentation Method for Substation Point Clouds Based on WSS-Pointnet

Pei Shaotong Sun Haichao Hu Chenlong Wang Weiqi Lan Bo

(Hebei Provincial Key Laboratory of Power Transmission Equipment Security Defense North China Electric Power University Baoding 071003 China)

Abstract In-depth research on semantic segmentation algorithms for substation point clouds is crucial for advancing the development of smart grids. Current semantic segmentation algorithms for substation point clouds rely predominantly on fully supervised learning, which requires extensive manual annotation of point cloud data. This makes the segmentation process time-intensive and costly. Weakly supervised methods have demonstrated significant advantages in reducing the human effort required for annotation, emerging as a prominent research focus in point cloud semantic segmentation. However, existing weakly supervised methods primarily adopt a single information propagation strategy, which struggles to accommodate the complexity and diversity of substation point cloud data structures. Moreover, these methods often fail to adequately capture local connectivity patterns in the point cloud, resulting in inefficient semantic feature propagation and diminished segmentation performance and accuracy.

To address these challenges, this study proposes an improved PointNet-based algorithm named WSS-PointNet. The approach begins with constructing a multi-layer down-sampling structure, employing multiple sampling and grouping layers to process the input point cloud data and extract multi-scale feature representations. This multi-scale feature extraction effectively captures geometric and topological information of the point cloud at various scales. Subsequently, the PointNet structure is introduced to further extract regional features. The PointNet layer retains the multilayer perceptron (MLP) and max-pooling operations of the original PointNet architecture while removing the T-net structure to simplify the network and reduce computational complexity. A feature aggregation strategy is then used to integrate local features into a global feature representation. This process preserves local details in the point cloud while enhancing the model's ability to understand and recognize the overall scene by extracting global features. Through this method, the model effectively learns rich feature information from the point cloud data, providing coarse-grained semantic features for the subsequent network architecture. Following coarse-grained feature extraction, two semantic information embedding mechanisms are proposed: dilated semantic information embedding and immersive semantic information embedding. These mechanisms employ “inside-out” and “outside-in” information propagation strategies, respectively, to finely optimize point cloud features. Both embedding structures utilize graph convolutional neural networks (Graph-CNNs). The first GCN layer captures local connectivity patterns within the point cloud and shares effective information between the two network structures. In the second GCN layer, dilated and immersive embedding mechanisms enable morphological dilation and immersion, respectively, enriching the semantic features of the point cloud.

To reduce overfitting during training and improve the model’s generalization capability, three data augmentation techniques are introduced: pose transformation, point jittering, and attribute attention mechanisms. These methods effectively increase the diversity of training data.

In this study, Avia LiDAR devices were used to collect point cloud data at substation sites, including the Xingtai substation in Hebei Province. The original dataset includes critical electrical facilities such as transformers, switchgear, towers, conductors, and monitoring equipment, as well as environmental elements like vegetation and buildings. After data augmentation, the total point cloud data volume reached 4 484 089 points, with 22% of the data generated through augmentation. The augmented dataset was further divided into training and testing sets in an 8width=6,height=112 ratio.

Experimental results demonstrate that WSS-PointNet improves the overall accuracy (OA) of substation point cloud segmentation by 10.3 percentage points, the mean intersection over union (mIoU) by 10.1 percentage points, and the mean accuracy (mAcc) by 10.5 percentage points, compared to its predecessor. Additionally, it reduces the annotation time required by 90%, achieving segmentation performance comparable to the best fully supervised algorithms. This model significantly reduces the time and cost associated with processing substation point cloud data while maintaining high segmentation accuracy.

keywords:Point cloud semantic segmentation, weakly supervised methods, dilation-based semantic information embedding, erosion-based semantic information embedding, substation

DOI: 10.19595/j.cnki.1000-6753.tces.242212

中图分类号:TM407;TP39

国家电网有限公司总部管理科技项目资助(5500-202416158A-1- 1-ZN)。

收稿日期 2024-12-08

改稿日期 2024-12-29

作者简介

裴少通 男,1990年生,副教授,硕士生导师,研究方向为电气设备在线监测及故障诊断。E-mail: peishaotong@ncepu.edu.cn(通信作者)

孙海超 男,2000年生,硕士研究生,研究方向为电气设备在线监测及故障诊断。E-mail: sunhaichao2000@163.com

(编辑 李 冰)