基于速度-关联约束的风电机组风速感知异常数据识别方法

李 阳1 沈小军1 张扬帆2,3 王 玙2,3

(1.同济大学电子与信息工程学院 上海 200092 2.国网冀北电力有限公司电力科学研究院 北京 100045 3.风光储并网运行技术国家电网公司重点实验室 北京 100045)

摘 要 该文以风速时空关联特性为理论依据,针对风速数据单独清洗构建一种基于速度-关联约束的异常风速数据识别方法。分析了风电场典型异常风速的产生原因和分布特征,根据数据的变化趋势,将异常风速概括为突变型异常数据和渐近型异常数据两类;为提升风速数据清洗方法的准确性,提出一种基于二元形态分割算法的风速数据时序区间分割方法,将全局风速序列在时序上划分为多段分布独立的局部风速子序列,分别对每段风速子序列构建速度-关联约束条件,实现异常风速数据的识别。验证结果表明,所提方法能够有效识别风电场各类异常风速数据,清洗效果好、效率高,具有普适性和鲁棒性。

关键词:风电机组 异常风速 数据清洗 二元形态分割 速度-关联约束

0 引言

“双碳”背景下,风力发电以其清洁、可再生等优点已成为我国能源战略的重要组成部分[1]。由于目前风电机组在对运行数据采集、管理、分析和挖掘等方面仍存在诸多不足,数据质量难以得到保障[2],数据清洗已成为风电设备性能评估[3]、参数预测[4]、控制策略制定[5]等多维数字化应用过程中不可或缺的环节。

研究学者对有关风电场数据清洗的研究已开展了大量的工作并取得了诸多成果,总结发现,现有的风电场数据清洗方法大多围绕风速-功率曲线特性展开,分析不同类别异常数据在风功率曲线上分布的空间位置和形态特征开展数据清洗工作,例如:四分位-聚类法[6]、置信等效边界模型[7]、最优组内方差法[8]、变点-四分位法[9]、Thompson tau-四分位法[10]、局部粒子群算法[11]等。现有方法能够有效识别位于风功率曲线外明显违背风速-功率特性的堆积型异常功率数据,解决风电机组运行特性建模分析过程中风功率数据准确性和有效性问题,对于机组发电性能考核意义重大。然而,考虑到风速-功率转换关系中的不确定性与风速不确定性的机理不同[12],以及不同业务应用对异常数据的敏感性差异[13],面向风电机组发电性能考核构建的数据清洗模型难以全面满足其他应用对数据质量的需求,以风速传感器运行性能评估和健康管理为例,若以风功率曲线特性作为异常判据,某机组功率值为1 000kW 的点对应的正常风速区间为5.5~9.1m/s,区间宽度达3.6m/s,而对于风速传感器性能评估应用中,若单点测量值偏差达到3.6m/s,则已被定义为异常数据,从而造成位于风功率曲线内部由于风速传感器性能下降产生的弱故障风速数据被误认为是正常数据,影响评估的准确性。鉴于不同应用服务对数据质量需求和异常数据的敏感度均不同,在构建风电场数据清洗方法时,有必要综合考虑应用端对数据质量的需求以及对异常数据的敏感度,对于提升风电场业务应用水平具有一定的价值。

目前,很少有考虑面向风速传感器运行性能评估和健康管理的异常风速数据识别方法。本文以风速数据的时间和空间关联特性为基础,提出一种面向风电场风速传感器运行性能评价的异常风速数据清洗方法和架构,深度挖掘各种类别异常风速数据,尤其是位于风功率曲线内部和周围的弱故障异常数据,旨在提升风电场测量风速数据的整体质量,同时为风速传感器在不同速度区间运行性能考核提供参考。文中对风电场常见的异常风速数据进行总结和分类,考虑到长时间尺度的风速数据在特征分析和关联建模过程中容易造成部分局部特征信息的覆盖或湮没,本文利用基于二元形态分割的变点检测算法对全局风速序列进行时序区间划分,针对每段子序列分别从时间和空间维度构建基于速度-关联约束的异常风速识别方法并展开数据清洗工作。最后以风电场实际测量数据为研究对象,验证所提方法的有效性。

1 风速数据清洗方法

1.1 风速异常数据的特征及分类

风电机组风速数据主要是通过安装在机身外部的风速传感器测量获得,随后通过风电场光纤通信网络传输至机组控制系统,指导机组执行最优控制策略,主要包括以下控制功能:①机组根据输入风速信号值自动进行起停、并网或离网操作;②风速变化时,机组能够自动进行转速变换和功率控制;③风向、风速变化时机组能够进行偏航、变桨操作,完成自动对风。实际风电场中,机组运行环境相对恶劣,尤其是海上风电机组,雷击、鸟类撞击、材料腐蚀、机械磨损等时有发生,容易造成裸露在机身外壳上的风速传感器性能下降,致使转速失准甚至停止转动。风电场异常风速分类及产生原因见表1。按照数据的变化趋势,典型的异常风速数据可归纳为表1 中的两类。

表1 风电场异常风速分类及产生原因
Tab.1 Classification and causes of outliers

(1)突变型异常数据:此类异常数据的产生主要有两种情形,一种是由于风速传感器抗外界电磁扰动能力减弱,当外界扰动较强时容易造成测量数据发生大范围突变,单次异常的持续时间往往较短,分布离散;另一种情形是由于风速传感器重要零部件损坏,导致异常状态发生非趋势性突变,缺少了测量风速环节,分布较为连续,数量较大,例如:风速传感器传动轴承断裂、传感器无输入数据。

(2)渐近型异常数据:此类异常数据同样存在两种情况,一种是风速传感器的零部件损坏程度呈现渐近式过程,测量数据偏离正常值,偏移量随着设备异常状态的演化逐步加大,即弱故障数据,例如:传动轴承润滑油性能下降,造成传感器传动卡滞、不灵活等问题,测量失准;另一种则是由于通信错误产生的连续相同值,此类异常的产生具有随机性。风电场典型的异常风速数据分布特征如图1 所示。

图1 异常风速数据分布特征
Fig.1 Distributions of wind speed outliers

实际风电场中,风电机组SCADA 系统中装有传感器故障诊断模块,诊断的基本逻辑是设置风速的上、下阈值,当传感器测量值超出阈值范围时,系统报警,机组能够识别出传感器超出阈值的异常数据。对于渐近型异常数据,风速数据偏离正常风速的范围与传感器异常状态的演化过程相关,异常风速仍在系统诊断的阈值范围内,SCADA 系统无法准确识别出此类异常风速。对于一个已投运的百MW 级风电场,风电机组数量可达数十台甚至上百台,分布较广,工程上难以逐一对每台机组的风速传感器运行性能进行全面检测,亟需一种数据驱动下的传感器异常测量数据识别方法,一方面对于全面了解风速传感器运行性能提供参考;另一方面为机组提供准确、可靠的测量数据。基于此,本文提出面向传感器运行性能评估和健康管理的风电场异常风速感知数据识别方法。

1.2 风速数据清洗方法提出

在数理统计上,一段时间序列或随机过程状态的变化表现为序列或随机变量的均值、方差等统计量发生突变[14],描述多元统计量发生突变的点称为变点,变点的产生往往反映一段序列或随机过程的数据质量或状态发生变化[9],利用变点检测开展异常检测和质量管理也被应用于多个领域。对于风速测量数据,当风速传感器发生失准、缺测等故障时,持续的故障状态会导致异常数据与正常数据呈现明显不同的分布特征,风速均值、方差等多元统计量会发生突变[15],理论上,通过检测风速序列的变点可以实现异常风速数据的识别。然而,由于风速具有较强的时变特性,当大气运行较为强烈时,风速数据也会发生波动,造成测量数据均值、方差等发生变化,即传感器异常和风速时变特性都会造成测量风速序列产生变点,仅利用变点作为异常风速识别的依据容易造成对部分正常数据的误诊。

相关研究表明,由于大气压差的存在,在特定的地理环境和复杂的大气运动作用下,风能在风电场之间传播时,地理位置相邻的风电场的出力往往存在很强的空间相关性[16]。处于同一风带的相邻风电机组,其风速和风向都会有很强的时空联系,风电机组间的风速值往往存在广泛的关联性[17]。就风电机组风速相关性而言,风速越大,上下游之间的风速相关性就越显著[18]。利用上下游风机之间风速存在的关联性,由风速相关性较强的机组共同构成一个机组群落,通过分析和比对机组群落内风速数据的时间和空间关联特性,对于识别风速数据的异常状态具有理论可行性。然而,在对风速数据关联建模时,研究的时间尺度成了主要的问题,时间尺度选择过长容易造成某些局部特征被覆盖,时间尺度过短则增加了算法的复杂度和计算量。

综合以上两种方法的特点以及风速数据的分布特征,本文提出了一种联合变点检测和风速时空关联特性的异常风速数据识别方法。首先构建一种应用于风速序列的多变点检测模型,以检测到的变点作为风速数据的时序分割点,将风速序列在时序上划分为多段风速子序列,再分别以每段子序列为研究对象,构建风速时空关联约束条件,逐段检测异常风速数据。基于风速时空关联的异常风速数据识别方法架构如图2 所示。

图2 异常风速数据识别方法示意图
Fig.2 Diagram of abnormal wind speed measurements detection

2 风速数据的时序区间划分

如前所述,风速传感器发生异常直接表现为测量所得风速数据均值、方差等统计特征发生不同程度的波动。为识别异常起始时刻,本文采用一种基于二元形态分割算法的变点检测技术,奠定以变点作为时序区间划分的时刻,将全局风速序列在时序上切割为多段风速子序列,为进一步诊断奠定基础。

在多变点检测方法中,二元分割(Binary Segmentation,BS)算法由于兼具稳定性和可靠性,广泛应用于多个领域。对于风速数据变点检测而言,由于风速序列样本较长、时变特征明显,基于全局统计量的传统BS 算法难以有效识别局部的变点问题[19]。鉴于BS 方法具有稳定性的优势,本文在考虑风电场风速数据分布特征的基础上,对传统BS序贯思想进行改进,采用一种融合形态特征的变点二元检测技术检测风速变点,改进方案如下:

(1)采用局部统计量替代全局统计量。风速数据多元统计特征的偏离度与传感器的异常程度相关,当检测的风速数据样本较长时,设备可能多次发生不同程度的异常。以全局统计量作为变点检测的依据容易造成某些故障程度较轻的状态(弱故障)被忽略,利用局部统计量作为判据能够提升方法的普适性和准确性,方法的性能不受样本容量影响。

(2)增加局部峰约束。复杂的大气运动也会导致风速数据统计特征的变化,尤其是在大气运动较为明显时,风速数据的波动范围也会增大,表现为统计量在一段时间内连续大范围变化。而风速传感器在发生故障后,故障测量数据在故障时刻会发生大范围突变,随后进入一种相对稳定的状态,分析故障前后两端风速序列局部统计量的特征发现,变点处统计量不仅是局部最大值,而且是局部峰[14],与由于风速时变产生的变点分布相异,故本文增加局部峰的约束条件,筛选掉部分非变点,提高算法效率。

(3)增加统计量界的约束。风速数据波动特性较为明显,风速值越小,波动特性往往越明显,传感器故障往往会导致随风速测量数据发生一定程度的偏移,增加界的约束可以筛选掉由于风速数据本身波动造成的数据分布特征变化,提升算法的稳健性。

假设某一台风速传感器采集的风速序列V=[v0 v1vT],序列的描述模型定义为

式中,Vt 为第t 个时序子区间风速序列,VtV,其对应的均值是 μi,假设 μ0=μ1=μ2=⋅⋅⋅=μqμq+1=⋅⋅⋅=μwμw+1=⋅⋅⋅=μeμe+1=⋅⋅⋅=μn,该序列的变点数量N 和位置未知,实际中,变点数量N 比样本量T 小得多,即N=o(T)。为兼顾算法的效率和准确率,本文采用一种基于形态识别的变点二元分割检测算法。算法的思路仍以BS 算法为基础,在进行变点检测过程中,首先计算局部统计量 的值,当某点统计量的值大于设定的阈值,则将该点作为第一个疑似变点,假设第一个疑似变点为,将时序区间[0,T]在处分为左右两个子段[v0 v1 ⋅⋅⋅ vk0*]和[ vk0* ⋅⋅⋅ vT];随后继续在新分的两段区间内计算局部统计值检测疑似变点,然后再对找到的疑似变点进行二分,循环递归,直到找到所有的点。

算法的具体步骤如图3 所示,主要步骤如下。

图3 变点检测示意图
Fig.3 Diagram of change-point detection

1)检测并确定疑似变点

式中,C 为搜索系数,可选的范围为[0.3,0.5],本文取C=0.4;h 为搜索窗宽,其与样本量T 有关;k 为待检测点。

(2)验证疑似变点是否为变点,则该点需要同时满足峰的判定条件。峰的判断方法是,以此点为中心,对窗宽为2h 内的点作差分,若疑似变点左边h 范围内大于0 的差分和右边h 范围小于0 的差分个数之和占窗宽2h 的比重 PR ()>γ,则认为该点为峰,峰识别统计量定义为

式中,df(i,j)为 两点统计量的差分,df(i,j)=1、0、-1 分别表示统计量呈上升、平稳和下降趋势;Idf(i,j)=1 为该点为统计量上升点的计数,Idf(i,j)=-1 表示该点为统计量下降点的计数;PR()为点是峰的权重,如果PR()>γ,则 是—个单峰,由于数据的随机性以及数据统计量的分布形态,在实际中一般设置γ=0.7 或0.8,由于局部统计量分布在变点处峰值明显,此判断方法不易遗漏真实变点。

(3)经过前两步筛选后的点是包括变点在内的所有满足局部最大值的峰点。由于筛选后的点在变点处的统计量值和非变点统计量值相差较大,则只需要粗略地定一个区分变点与非变点的界ξa,即可确定最终变点。界ξa 与统计量值有关,选取的标准是能筛选掉非变点,而由于检验统计量在变点处呈峰的特质,在变点周围的非变点不构成局部最大值,故只要去除远离变点的非变点即可,而远离变点的非变点的统计量值比变点处的小很多,故本文将界ξa 定义为

式中,a 的可取范围很广,一定程度上对结果的准确度不敏感,本文设置a=0.4。

满足以上三个条件,则认为为变点。

2)数据分段

将整段数据V=[v0 v1 ⋅⋅⋅ vi ⋅⋅⋅ vT]以变点 分为两段[v0 v1 ⋅⋅⋅ ]和[ ⋅⋅⋅ vT],然后分别对这两段执行步骤1)的算法。

3)重复步骤1)和2),直至没有变点出现。

基于二元形态分割的变点检测算法能够将全局风速序列划分为多段均值、方差等统计量相异的风速子序列,以风速子序列作为研究对象,可以让风速数据的局部特征更加明显,方便能够完整、准确地识别数据间的相似度和差异度。

图4a 为计算机生成的含有四种不同分布特征的时间序列,变点位置分别位于第47、64 和122个时序点,利用本文所构建的变点检测模型,计算统计量如图4b 所示,检测到的变点位于3 个峰值处,即第47、64 和122 个点,与实际变点位置一致。

图4 多变点检测示意图
Fig.4 Diagram of multiple chane-points detection

由此可见,所提方法能够准确识别一段序列均值、方差等统计量发生明显变化的点,并以此变点对序列进行切割。利用变点检测方法分割后的每段子序列存在以下三种状态:①正常数据;②正常数据夹杂少量分散的突变型异常数据;③异常数据。因此,对于每段子序列的运行状态,本文将构建风速数据的时空关联模型做进一步识别。

3 异常风速数据识别方法理论架构

基于所构建的时序区间划分模型,全局风速数据将被划分为若干段局部风速子序列,本节将以切割后的风速子序列为研究对象,分别从时间和空间维度构建约束条件,逐段识别异常风速数据。如前所述,异常风速数据按照其分布特征可以分为突变型异常数据和渐近型异常数据,针对突变型异常数据以及部分渐近型异常数据(连续相同值),本文从风速数据的时间关联特性出发,构建基于速度约束的异常数据识别算法,此外,为避免对阵风气候的误诊,本文增加风速边界阈值约束;对于风速失准、失稳等渐近型异常数据,本文从风速的空间相关性出发构建关联约束条件,利用Copula 函数描述风速的空间相关性,通过校核多台机组风速相关性的一致性问题识别此类异常数据。

3.1 基于速度和边界约束的数据清洗方法原理

风速数据在时间尺度上具有自相关性,当前时刻数据与其历史状态相关联,若某一时刻受电磁干扰、通信故障等原因造成数据大范围突变,与自相关性相矛盾,故本文构造风速数据变化速度约束条件,用以识别此类异常数据,模型描述如下。

多区间速度约束 S 指一组速度约束区间sr(r=1,2,…,m)的集合,即S={s1,s2,…,sm}。在给定的时间窗口r 中,数据点(vi,vj)满足多区间速度约束S指窗口中任意数据点(vi,vj)满足速度约束sr。利用多区间速度约束可以识别处风速传感器发生的通信错误、电磁干扰等,异常数据的表现形式为数据突变和连续相同值。对于第r 个时间窗口,测风数据Vr的速度约束边界的确定方式为

式中,vminvmax 分别为风电场统计的最小风速和最大风速;ε 为敏感系数,该值的确定主要采用实验法,文中统计分析了多个风电场历史数据后,取εu=0.5;εd=0.01。

考虑到阵风气候下风速也会发生大范围变化,仅利用速度约束检测,会将阵风气候下的风速数据误诊为异常数据。统计表明,实际风电场90%以上的时间风速数据小于10m/s,且风速值越大,风速分布往往越稳定,阵风气候多发生在中风速区间内。分析突变型异常数据分布特征可知,此类异常数据往往会大范围偏离正常值,基于此,本文增加风速上下限边界约束为

式中,vqmaxvqmin 分别为风速的上四分位数和下四分位数。

同时不满足测风数据速度变化约束如式(10)和上下界约束如式(12)的测风数据方才判定为突变型异常风速,如图5 所示,基于速度约束和边界约束,可以避免误诊,提高算法准确性和普适性。

图5 基于速度和边界约束的异常数据检测
Fig.5 Example of speed and boundary constraints

3.2 基于关联约束的数据清洗方法原理

对于渐近型异常风速数据,其分布连续,数量相对较多,且分布特征与实际风速明显相异,对此类异常风速数据的识别是当前的难点,也是本文的主要工作。对于一个由多台相邻且处于同一风带上的风电机组构成的机组群落,异常传感器与其他正常传感器测量风速数据的相关性会发生突变。此外,出现多台相邻机组风速传感器同时发生异常为小概率事件。因此,考虑到算法的实用性和准确性,本小节以多台强相关机组构成的群落为对象,构建基于Copula 函数的风速序列相关性描述模型,通过分析目标与种子机组之间相关性识别异常风速。

3.2.1 机组群落划分

机组群落的划分以风速的空间相关性为依据,筛选出目标机组随时间动态变化的1 台或多台最佳相关风电机组共同构成一个机组群落。研究表明,风速空间相关性与两台机组的空间距离以及机组之间连线与风向的偏离度存在一定的关系,空间距离越近且连线方向偏离风向越小,机组的风速空间相关性越强[20]。也有文献指出,风速空间相关性的物理解释是依据大气压梯度分布情况得到的,两台机组连线与大气压梯度下降方向越接近,机组间空间相关性越强[21]。因此,本文优先选择两台机组的空间连线与风向的偏离度和风速相关性系数作为相关机组筛选的准则。其步骤如下:

(1)选取当前风向位于目标机组下风向的机组。

(2)选取下风向机组与目标机组空间连线与当前风向偏离角最小的m 台风电机组。

(3)选取与目标机组风速相关系数表征为强相关的风电机组,即相关性系数大于0.75。

按照上面的方法步骤,每台风电机组的最佳关联机组群都可得出,风电场就可以划分为多个风电机组群落。机组群落需要随盛行风向的变化而动态更新调整,在风向变化较大情况下,从第一步重新划分机组群落,确保在进行数据清洗时,关联机组与目标机组具有最强的相关性。考虑到文章的篇幅,机组群落划分的公式描述见附录式(A1)~式(A6)。

3.2.2 基于Copula 函数的风速关联模型

Copula 函数理论最初应用于金融业领域多元复杂变量的关联特性分析,其从概率角度来反映变量间的相关性,由于算法的实用性强、准确率高,近年来在风电场风速关联建模中广泛应用[22]

Sklar 定理[23]H(·)为n 元随机变量x1,x2,…,xn 的分布函数,F1(x1),…,Fn(xn)分别为其边缘概率分布函数,若F1(x1),…,Fn(xn)是连续的,则必然存在唯一一个Copula 函数C(·)满足

典型的Copula 函数主要有多元正态Copula 函数、GumbelCopula、ClaytonCopula 和多元t-Copula函数等,其中t-Copula 函数既可以用来计算风速序列间的相关性特征,又可以表现具有对称性的风速上尾部或下尾部相关性[23]

本文利用Weibull 分布模型作为描述风速序列的边缘分布函数,则其分布函数为

式中,vi 为风速;ck 分别为Weibull 分布尺度参数和形状参数。

假设求得的边缘分布函数分别表示为U=F1(x),V=F2(x),由于风速序列连续,则存在一个t-Copula函数 C(U,V)将两个风速序列的联合分布和边缘分布连接起来,C(U,V)的计算公式为

式中,表示自由度为 λ 的标准 t-分布函数Tλ(U)的逆函数;τ 为二元t-分布的相关性系数。

得到了联合分布函数 C(U,V),进一步可通过Kendall 秩相关系数定量评估不同风速序列间的相关性,其相关系数计算公式为

根据计算得到的相关系数来进一步判断两台机组之间的相关性强弱。

以算例子数据集1 中1 号和2 号机组测量风速数据为例详细阐述Copula 函数的构建过程,风速数据分别记为UV,机组拓扑结构见附录附图2。

(1)确定风速数据的边缘概率分布函数。本文选取Weibull 分布模型构建风速数据的边缘分布函数,并采用灰色数学理论求解Weibull 模型的双参数,计算结果见附表1,从而确定边缘分布函数。

(2)选取Copula 函数。由于(UV)的联合概率密度具有对称的尾部,本文选取二元t-Copula 函数描述两者的相关结构。

(3)参数估计与模型评价。t-Copula 函数的参数求解采用基于经验分布的极大似然估计法,风速序列二元t-Copula 密度函数参数见附表2。将二元t-Copula 与经验Copula(Cn)函数进行欧氏距离平方比较,经验Copula(Cn)函数的构建过程见文献[24],通过比较可知,二元t-Copula 与经验Copula 的欧氏距离二次方为0.191 3,故认为二元t-Copula 模型能较好地拟合风速数据的相关性。此外,在参数选取上,本文选用Kendall 秩相关系数作为输出结果。

4 风速数据清洗流程

异常风速数据的清洗流程主要分为风速数据时序区间划分、突变型异常数据识别和渐近型异常数据识别三个部分,异常识别方法的流程如图6 所示。

图6 数据清洗流程
Fig.6 Flow chart of data cleaning

(1)风速数据时序区间划分。风速数据的时序分割采用基于形态特征的变点二元检测技术展开,风速序列将根据所检测到的变点被划分为若干段风速子序列,对于风速序列V=[v0 v1 ⋅⋅⋅ vi ⋅⋅⋅ vT],vi表示第i 时刻的测量风速,根据变点检测结果将其从时序上划分为多段风速子序列,即

(2)突变型异常数据识别。突变型异常状态出现随机性较强,且大范围突变,本文采用一种基于数据变化速度和边界约束的检测技术,算法流程包括选择某一段风速子序列、确定速度约束条件、确定数据上下边界约束条件、计算风速数据差分、滑动检测、基于插值算法的异常风速重构,重复以上步骤,直至遍历完所有的风速子序列。

(3)渐近型异常数据识别。渐近型异常数据的识别采用多机关联和交叉核验方法,算法流程包括选择待检测风速序列对应机组作为目标机组、基于风向区和风速相关性系数选择机组群落、检测目标机组风速数据变点、基于变点的时序位置进行时序区间分割、计算目标机组与关联种子机组在各时序子区间内的风速相关性、机组间相关性交叉校核:若目标机组与种子机组的风速序列表征为不相关而种子机组之间的风速序列表征为相关,则判定目标机组对应的风速子序列为异常数据。

5 算例分析

以我国某风电场风速传感器阵列为研究对象,该风电场地处华北平原与内蒙古高原连接带,地势平坦,受季风区和蒙古高压影响,冬季风和夏季风的持续时间往往在7 个月以上,机组拓扑结构如附图2 所示。实验数据集共分为两个子数据集:子数据集1 结合了传感器实际测量数据和计算机生成的传感器故障数据,用于测试所提风速数据清洗方法的性能;子数据集2 全部为风电场风速传感器实际测量数据,用以验证所提算法的工程价值。

5.1 数据清洗方法性能验证

5.1.1 数据集

为验证基于风速相关性的风速数据清洗方法的有效性,本实验结合风电场风速传感器实际测量风速数据和计算机仿真得到的传感器故障状态下的异常风速数据,数据分布时间为2016 年12 月14 日0:00~2016 年12 月23 日23:50,时间分辨率为10min,相对风向角介于175°~182°。选取3 号机组为目标机组,目标机组的故障仿真数据见表2,根据文中所提机组群落划分方法,可以求得1 号和2 号机组为3 号机组的种子机组,并构成机组群落{1 号,2 号,3 号}。图7 为该群落的测量风速曲线,在第123 个时序点,3 号机组风速传感器发生异常。

表2 3 号机组异常风速数据识别结果
Tab.2 Statistics of abnormal wind speed of #3 turbine

图7 风速数据曲线
Fig.7 Distributions of wind speed correlations

5.1.2 时序区间划分

计算统计量,计算结果如附图3 所示。可以看到,以文中所构建的变点检测方法识别到3 号机组风速数据一共存在9 个变点,分别位于第101、162、577、936、1 008、1 091、1 127、1 281 和1 375时序点,全局风速序列被分割为10 段子序列。

5.1.3 突变型异常风速数据识别

首先构建基于速度约束条件,如附表3 所示,逐段识别突变型异常风速数据,共计检测到79 个异常风速数据,利用插值法对上述79 个异常风速数据进行重构。

5.1.4 渐近型异常风速数据识别

构建描述风速数据相关性的Copula 函数,计算3 台机组间的全局风速相关性系数和局部风速相关性系数,计算结果见附表4,可以看到,机组间的全局([0,1 440])风速相关性以及在时序区间[0,101]、[162,577]、[577,936]、[936,1 008]、[1 008,1 281]、[1 375,1 440]内的局部风速相关性均在0.75 及以上,表征为高度相关,在时序区间[101,162]、[1 281,1 375]内,3 号机组与1 号和2 号机组的风速相关性明显降低,表征为不相关,1 号与2 号机组的风速相关性依然为高度相关。故所提算法将判断3 号机组测量数据在区间[101,162]、[1 281,1 375]为渐近型异常风速数据。

为评价所提方法识别的精度,本文采用相对误差,计算公式为

式中,nerror 为误诊数据的总数目;ntotal 为异常数据总数。

计算得到本文所提异常风速识别方法可知,渐近型异常风速数据检测方法的精度为95.57%,突变型异常风速数据的检测精度为100%。由此可见,文中所构建的异常风速数据识别方法无论是对突变型异常数据还是渐近型异常风速数据,都具有较高的检测精度。此外,基于所提的变点检测算法能够有效识别风速数据状态发生变化的异常变点,但同时也会检测到一些由于风速时变特性产生的变点,通过风速相关性模型和交叉校核可以进一步检测由于传感器故障而产生的异常变点,识别异常风速数据,充分证明了基于风速相关性理论开展异常风速识别的有效性。此外,机组间的全局风速相关性相较于正常区间内的相关性虽然也有一定程度的下降,但依然表征为高度相关,这是因为以长时间尺度的风速数据作为关联建模分析对象容易覆盖某些局部特征信息,从而忽略一些短时间尺度的异常特征量。因此,联合变点检测算法和风速时空关联特性能够进一步提升算法的性能。

5.2 风电场实际测量数据分析

5.2.1 数据集

本实验选取6 号机组作为目标机组,选取2017年1 月1 日~2017 年1 月10 日共10 天的测风数据作为研究对象,数据间隔为10min,期间的相对风向角[131°,135°],基于文中所提机组群落划分方法,位于其上风向的7 号和8 号机组被选为目标机组的种子机组并共同构成一个机组群落。

5.2.2 时序区间划分

采用文中第2 节所提方法计算6 号机组测风序列的 统计量,计算结果如附图4 所示,按照二元形态分割算法进行变点识别,变点的位置在统计量的峰处。在2017 年1 月1 日~2017 年1 月10 日内,检测出的变点数量为10 个,位于第165、254、321、594、730、829、938、1 126、1 231 和1 366个时序点处。全局风速序列被划分为11 个局部风速子序列,如图8 所示,以子序列[0,144]为序列1,从左至右依次标号为序列1~序列11。

图8 风速序列划分结果
Fig.8 Result of wind speed sequence division

统计每台机组风速子序列的均值和方差,统计结果如图9 所示。可以看到,在每一段子序列中,7号与8 号机组的风速的均值和方差都比较接近,分布特性较为相似。在第1 段子序列和第10 段子序列中,6 号机组与7 号和8 号机组的平均风速和方差都相差较大,明显低于7 号和8 号机组,即6 号机组的测量风速在[0,165]和[1 366,1 440]时间段内,分布特征与7 号、8 号机组明显不同。在其他子序列中,6 号机组与7 号、8 号机组的风速统计量都比较接近。此外,对于6 号机组,相邻子序列的风速均值、方差差异明显,呈现不同的分布,证明了本文在对实际测量数据进行变点识别和区间划分时依然表现出较好的性能,算法能够有效识别风速序列分布的变化时刻,划分结果能够反映风速序列的时变特性。

图9 风速序列风速均值和方差统计
Fig.9 Statistics of mean and variance for wind speed

5.2.3 突变型异常风速数据识别

进一步,对每段风速子序列分别采用式(11)制定数据变化速度约束条件,并按照式(12)计算边界约束,每段风速子序列的速度和边界约束条件见附表5。以多区间约束条件对风速序列进行滑动检测,6 号机组2017 年1 月1 日~2017 年1 月10日区间内共出现15 个突变型异常测风数据,表明该机组风速传感器通信系统运行状况良好,抗电磁干扰能力较为稳定。考虑到后续对风速相关性描述应用输入数据的完整性,本文采用插值算法对上述异常数据进行重构。

5.2.4 渐近型异常风速数据识别

为检测目标机组在每段风速子序列的渐近异常数据,利用t-Copula 函数计算3 台机组在每段序列中风速的相关性,计算结果如图10 所示,可以看到,在序列1 和序列10 中,7 号和8 号机组间的测量风速的相关性表征为高度相关,相关性系数分别为0.91 和0.86,而6 号机组与7 号、8 号机组的风速相关性表征为不相关,相关性系数均低于0.05。统计序列1 和序列10 的平均风速发现,6 号机组的平均风速要明显低于7 号和8 号机组,平均风速相差接近5m/s;在其他风速子序列中,3 台机组之间保持较高的风速相关性,相关性系数达到0.6 以上,最高可达0.92。因此,判断6 号机组的风速在子序列1 和子序列10 为渐近型异常风速。

图10 风速子序列风速相关性统计
Fig.10 Statistics of wind speed correlations

从风速子序列划分和异常风速识别结果可以看出,导致测风数据分布特性发生变化的原因不仅是因为传感器发生异常,也是由于风速序列的时变特性。在正常时序区间[165,1 231]中,风速序列同样被划分为多个不同的子序列,且相邻序列之间多元统计量差异较为明显。此外,机组间的风速相关性也存在时变特性,如图10 所示,P(6 号,7 号)和P(6号,8 号)在不同子序列中会发生一定范围内的波动,但在每段子序列中,总能找到与6 号机组风速高度相关的种子机组,风速相关性系数处于0.75 及以上,计算6 号与7 号和8 号机组在整个时序区间的全局风速相关性可知,两者分别为0.617 和0.639。可见,本文采用风速序列时序分割方法对于风速相关性建模分析具有工程意义,采用局部风速相关性作为关联种子机组的筛选标准,使得每个时序区间总可找到最优的关联种子机组,弱化风速时变特性的影响,提高风速相关性分析的精度,为后续异常风速数据识别奠定基础。

计算异常数据的统计参数发现,在统计周期内,6 号传感器采集的异常风速数据累积持续时间达到了1 650min,异常占比达到21.87%,且异常数据的方均根误差达到7.84,偏离正常数据的范围较大,平均风速偏离值接近5m/s(相对于重构风速)。异常数据中,以渐近型异常数据为主,夹杂少量突变型异常数据,说明风速传感器的数据抗电磁干扰能力良好,风速捕获模块运行状态不稳定,一方面是由于传感器运行性能衰减,能够正常运行于单一、良好的气候环境中,但当外界环境影响因素突变或恶化,传感器运行状态不太理想,测风数据大范围偏离正常风速,其运行状态很大程度受限于外界气候环境因素的影响;另一方面是因为传感器自身关键零部件性能衰减,运行状态不稳定,导致测风数据在正常值与异常值之间波动,当其性能继续衰退,异常测量风速的比重会进一步加大。后续工作也会在现有异常风速数据识别结果的基础上,构建风速传感器运行性能综合评价体系,量化识别传感器在不同风速区间、不同天气状况下的运行精度、可靠性和稳定性,为传感器运检工作计划的制定提供参考。

6 结论

本文提出一种基于速度-关联约束的风电机组异常速识别方法,得出以下结论:

1)基于二元形态分割的变点检测方法能够有效识别风速序列多元统计特征发生明显变化的点,从而将全局风速序列划分为若干独立分布的局部风速子序列,提升风速关联建模的准确性和可靠性。

2)基于速度约束-关联约束的数据清洗方法能够准确识别风电场各类别异常风速感知数据,尤其是异常特征不太明显的弱故障异常风速数据。

3)本文提出了一种基于时空关联特性的时序数据清洗方法,具有一定的普适性,该方法考虑了实际业务应用对异常数据灵敏度的差异,能够快速、准确识别各类异常风速感知数据,对于风速传感器运行性能评估、数据质量提升等意义重大。

附 录

附图1 多区间速度约束实例
App.Fig.1 Exampleof multi-speed constrains

以附图2 中1 号风电机组为例说明最佳下相关机组的选择方法。

附图2 风电机组拓扑
App.Fig.2 Topology of wind turbines

(1)识别下风向机组:假设在某时刻的相对风向角为α(来风向与正东方向逆时针夹角),求出沿相对风向角α 且过1 号机组的直线为

过1 号机组作式(A1)描述的直线的垂线为

将风电场内每台机组空间位置对应的直角坐标点(xi,yi)代入式(14),满足式(15)和式(16)的机组即处于下风向。

(2)记过备选i 号机组和1 号的直线斜率为k2。计算该直线与式(A1)表示的直线的夹角β,寻找使式(A5)中取值最小的m 台风电机组。如果只有一个风电机组,那么它就是所寻找的相关风电机组,如果有多个,那么就进入步骤(3)。

(3)在步骤(2)选出的多个风电机组中,按式(A6)分别求出各风电机组与1 号机组的风速相关系数r,选出r>0.5 的风电机组构成一个机组群落。

式中,ri 为关联机组i 与目标机组的皮尔逊系数;vi,t 为备选种子机组在t 时刻的风速;vtar,t 为1 号机组在t 时刻的风速;vi,avg 为备选种子机组的平均风速;vtar,avg 为1 号机组的平均风速。

按照步骤(1)~步骤(3),可以得到与待检测 1号机组空间相关性最佳的n 台机组,将这n 台机组的风速数据作为1 号机组的关联种子机组。

附表1 Weibull 分布模型参数
App.Tab.1 Parameters of Weibull model

附表2 采用极大似然估计法所得的t-Copula 函数参数
App.Tab.2 Parameters by maximum likelihood estimation method for t-Copula function

附图3 风速序列的统计量
App.Fig.3 Statistics of

附表3 速度和边界约束条件
App.Tab.3 Constraints of speed and threshold

附表4 风速相关性统计
App.Tab.4 Statistics of wind speed correlations

附图4 风速序列的 统计量
App.Fig.4 Statistics of wind speed

附表5 速度和边界约束条件
App.Tab.5 Constraints of speed and threshold

参考文献

[1]韩肖清,李廷钧,张东霞,等.双碳目标下的新型电力系统规划新问题及关键技术[J].高电压技术,2021,47(9): 3036-3046.Han Xiaoqing,Li Tingjun,Zhang Dongxia,et al.New issues and key technologies of new power system planning under double carbon goals[J].High Voltage Engineering,2021,47(9): 3036-3046.

[2]武佳卉,邵振国,杨少华,等.数据清洗在新能源功率预测中的研究综述和展望[J].电气技术,2020,21(11): 1-6.Wu Jiahui,Shao Zhenguo,Yang Shaohua,et al.Review and prospect of data cleaning in renewable energy power prediction[J].Electrical Engineering,2020,21(11): 1-6.

[3]娄建楼,胥佳,单凯.基于机舱风速计的风电机组功率特性评估方法[J].电力系统自动化,2016,40(9): 23-28.Lou Jianlou,Xu Jia,Shan Kai.Power performance measuring method of wind turbines based on nacelle anemometer[J].Automation of Electric Power Systems,2016,40(9): 23-28.

[4]潘超,李润宇,蔡国伟,等.基于时空关联分解重构的风速超短期预测[J].电工技术学报,2021,36(22): 4739-4748.Pan Chao,Li Runyu,Cai Guowei,et al.Multi-step ultra-short-term wind speed prediction based on decomposition and reconstruction of time-spatial correlation[J].Transactions of China Electrotechnical Society,2021,36 (22): 4739-4748.

[5]关中杰,鲁效平,李钢强,等.基于风速模型的风电机组动态转矩前馈控制技术[J].电工技术学报,2018,33(22): 5338-5345.Guan Zhongjie,Lu Xiaoping,Li Gangqiang,et al.Dynamic torque feed forward control technology of wind turbine based on wind speed model[J].Transactions of China Electrotechnical Society,2018,33(22): 5338-5345.

[6]赵永宁,叶林,朱倩雯.风电场弃风异常数据簇的特征及处理方法[J].电力系统自动化,2014,38(27): 39-46.Zhao Yongning,Ye Lin,Zhu Qianwen.Characteristics and processing method of abnormal data cluster caused by wind curtailments in wind farms[J].Automation of Electric Power Systems,2014,38(27): 39-46.

[7]胡阳,乔依林.基于置信等效边界模型的风功率数据清洗方法[J].电力系统自动化,2018,42(15): 18-23.Hu Yang,Qiao Yilin.Wind power data cleaning method based on confidence equivalent boundary model[J].Automation of Electric Power Systems,2018,42(15): 18-23.

[8]娄建楼,胥佳,陆恒,等.基于功率曲线的风电机组数据清洗算法[J].电力系统自动化,2016,40(10): 116-121.Lou Jianlou,Xu Jia,Lu Heng,et al.Wind turbine data-cleaning algorithm based on power curve[J].Automation of Electric Power Systems,2016,40(10): 116-121.

[9]Shen Xiaojun,Fu Xuejiao,Zhou Chongcheng.A combined algorithm for cleaning abnormal data of wind turbine power curve based on change point grouping algorithm and quartile algorithm[J].IEEE Transactions on Sustainable Energy,2019,10(1): 46-54.

[10]邹同华,高云鹏,伊慧娟,等.基于Thompson tau-四分位和多点插值的风电功率异常数据处理[J].电力系统自动化,2020,44(15): 156-162.Zou Tonghua,Gao Yunpeng,Yin Huijuan,et al.Processing of wind power abnormal data based on Thompson tau-quartile and multi-point interpolation[J].Automation of Electric Power Systems,2020,44(15): 156-162.

[11]Zheng Le,Hu Wei,Min Yong.Raw wind data preprocessing: a data-mining approach[J].IEEE Transactions on Sustainable Energy,2014,6(1): 11-19.

[12]凡航,张雪敏,梅生伟,等.基于时空神经网络的风电场超短期风速预测模型[J].电力系统自动化,2021,45(1): 28-35.Fan Hang,Zhang Xuemin,Mei Shengwei,et al.Ultra-short-term wind speed prediction model for wind farms based on spatiotemporal neural network[J].Automation of Electric Power Systems,2021,45(1): 28-35.

[13]马然,栗文义,齐咏生.风电机组健康状态预测中异常数据在线清洗[J].电工技术学报,2021,36(10): 132-142.Ma Ran,Li Wenyi,Qi Yongsheng.Online cleaning of abnormal data for the prediction of wind turbine health condition[J].Transactions of China Electrotechnical Society,2017,11(1): 132-142.

[14]庄丹,刘友波,马铁丰.多变点检测问题的Shape-based BS 算法[J].高校应用数学学报A 刊,2019,34(2): 151-164.Zhuang Dan,Liu Youbo,Ma Tiefeng.Shape-based BS algorithm for multiple change-point detection[J].Applied Mathematics A Journal of Chinese Universities,2019,34(2): 151-164.

[15]沈小军,付雪姣,周冲成,等.风电机组风速-功率异常运行数据特征及清洗方法[J].电工技术学报,2018,33(14): 3353-3361.Shen Xiaojun,Fu Xuejiao,Zhou Chongcheng,et al.Characteristics of outliers in wind speed-power operation data of wind turbines and its cleaning method [J].Transactions of China Electrotechnical Society,2018,33(14): 3353-3361.

[16]叶燕飞,王琦,陈宁,等.考虑时空分布特性的风速预测模型[J].电力系统保护与控制,2017,45(4): 114-120.Ye Yanfei,Wang Qi,Chen Ning,et al.Wind forecast model considering the characteristics of temporal and spatial distribution[J].Power System Protection and Control,2017,45(4): 114-120.

[17]沈小军,周冲成,付雪娇.基于机联网-空间相关性权重的风电机组风速预测研究[J].电工技术学报,2021,36(9): 1782-1790.Shen Xiaojun,Zhou Chongcheng,Fu Xuejiao.Wind speed prediction of wind turbine based on the internet of machines and spatial correlation weight[J].Transactions of China Electrotechnical Society,2021,36(9): 1782-1790.

[18]Wu Yuxi,Wu Qingbiao,Zhu Jiaqi.Data-driven wind speed forecasting using deep feature extraction and LSTM[J].IET Renewable Power Generation,2019,13(12): 2062-2069.

[19]Piotr F.Wild binary segmentation for multiple change-point detection[J].Annals of Statistics,2014,42(6): 2243-2281.

[20]Zhu Qiaomu,Chen Jinfu,Zhu Lin,et al.Learning temporal and spatial correlations jointly: a unified framework for wind speed prediction[J].IEEE Transactions on Sustainable Energy,2020,11(1): 509-523.

[21]Li Pai,Guan Xiaohong,Wu Jiang,et al.Modeling dynamic spatial correlations of geographically distributed wind farms and constructing ellipsoidal uncertainty sets for optimization-based generation scheduling[J].IEEE Transactions on Sustainable Energy,2015,6(4):1594-1605.

[22]沈小军,周冲成,吕洪.基于运行数据的风电机组间风速相关性统计分析[J].电工技术学报,2017,32(16): 265-274.Shen Xiaojun,Zhou Chongcheng,Lü Hong.Statistical analysis of wind speed correlation between wind turbines based on operational data[J].Transactions of China Electrotechnical Society,2017,32(16): 265-274.

[23]段偲默,苗世洪,霍雪松,等.基于动态Copula 的风光联合出力建模及动态相关性分析[J].电力系统保护与控制,2019,47(5): 35-42.Duan Simo,Miao Shihong,Huo Xuesong,et al.Modeling and dynamic correlation analysis of wind/solar power joint output based on dynamic Copula[J].Power System Protection and Control,2019,47(5): 35-42.

[24]黎静华,文劲宇,程时杰,等.考虑多风电场出力Copula 相关关系的场景生成方法[J].中国电机工程学报,2013,33(16): 30-36.Li Jinghua,Wen Jinyu,Cheng Shijie,et al.A scene generation method considering copula correlation relationship of multi-wind farms power[J].Proceedings of the CSEE,2013,33(16): 30-36.

Cleaning Method of Wind Speed Outliers for Wind Turbines Based on Velocity and Correlation Constraints

Li Yang1 Shen Xiaojun1 Zhang Yangfan2,3 Wang Yu2,3
(1.College of Electronic and Information Engineering Tongji University Shanghai 200092 China 2.State Grid Jibei Electric Power Research Institute Beijing 100045 China 3.Grid-connected Operation Technology for Wind-Solar-Storage Hybrid System State Grid Corporation Key Laboratory Beijing 100045 China)

Abstract The wind speed sensors of wind turbines,due to long-term exposure to the harsh operating environment,are prone to instability or misalignment,resulting in a large amount of abnormal data in the collected raw data.The existing data cleaning methods for wind turbines,which primarily focus on the mapping relations between wind speed and wind power in power curves,are designed for wind power generation performance evaluation or wind power curve fitting.Few anomaly detection methods of wind speed data are proposed for the performance evaluation and health management (PEHM) for wind speed sensors.Consider the fact that different applications have different boundaries and requirements for data cleansing,this paper proposes a wind speed data cleaning method based on temporal and spatial correlation characteristics to deeply mine various abnormal data,especially the weak fault data located in or around the wind power curve.The anomaly detection results are helpful to find more information of wind speed sensers behaviors,which can be furtherly employed for PEHM.Firstly,the typical abnormal wind speed data in wind farms and their temporal features are summarized,which are classified into the sudden-changes and gradual-changes wind speed outliers.Then,a combined method using velocity and correlation constraints is proposed to detect various outliers.Since the local features of wind speed data are prone to partial coverage and annihilation when using long time scale data to model their temporal relations and correlations,this paper proposes a change-points detection algorithm based on shape binarysegmentation to perform temporal interval partitioning for the global wind speed series.Thus,the velocity and correlation constraints are constructed for each sub-series in temporal and spatial dimensions to conduct data cleaning tasks.The experiment results on two datasets,including a simulated dataset and an actual wind farm dataset,show that,the proposed method is capable of detecting various abnormal wind speed data for wind turbines.The precision rates of the proposed anomaly detection method for sudden-changes and gradual-changes abnormal wind speed data reach 95.57% and 100%,respectively.Statistics on the abnormal data indicate that the gradual-changes abnormal wind speed data holds the dominate proportion among the detected outliers and the rate of abnormal data reaches 21.87%.An explanation for that is the wind capture performance of the selected sensor decrease severely,instead,the anti-electromagnetic performance is perfect.Interestingly,there are many scatters inside the wind speed and power curve that are detected as abnormal wind speed data by the proposed method.However,such scatters are detected as normal data for power curves fitting and wind power generation performance evaluation,which furtherly proves that the boundaries and definitions for outliers vary for different data category and digital applications.The following conclusions can be drawn from the case analysis: (1) The shape binary segmentation-based change-points detection method is capable of effectively identifying the moments when the temporal features of wind speed series change significantly.The temporally segmented local wind speed sequences are mor suitable to correlations modelling with higher accuracy and reliability.(2) The proposed data cleaning method based on velocity and correlation constraints provides accurate detection for various abnormal wind speed data in wind farms,especially for the weak fault data.(3) This paper presents a general data cleaning framework for time series based on spatial and temporal correlation characteristics,which takes the differences of the sensitivity to abnormal data in practical applications into account and can accurately identify various abnormal wind speed data with precision rate of 95.57% and 100% for sudden-changes and gradual-changes outliers.

Keywords:Wind turbines,wind speed outliers,data cleaning,shape-based binary segmentation,velocity-correlation constraints

中图分类号:TK83

DOI:10.19595/j.cnki.1000-6753.tces.211893

收稿日期 2021-11-18

改稿日期 2021-12-06

作者简介:

李 阳 男,1992 年生,博士研究生,研究方向为风电机组状态感知与智能诊断、风电场数字孪生和参数预测等。

E-mail:ly18227602440@163.com

沈小军 男,1979 年生,教授,博士生导师,研究方向为新能源高效利用与储能技术、输变电场景三维重构及其数字孪生技术、电力设备状态感知与智能诊断等。

E-mail:xjshen79@163.com(通信作者)

(编辑 郭丽军)