基于深度确信策略梯度的电动汽车异步电机参数标定方法

漆 星 郑常宝 张 倩

(安徽大学电气工程学院 合肥 230601)

摘要 针对传统电动汽车异步电机参数标定任务中存在参数标定精度低、人工工作量大的问题,研究一种深度确信策略梯度的电动汽车异步电机参数标定方法,给出基于深度确信策略梯度的电动汽车异步电机标定算法框架,并通过实验对该方法的有效性和可行性进行了验证。可以发现,基于深度确信策略梯度的电动汽车异步电机参数标定方法具有如下特点:①标定的参数并非电机实际物理模型参数,而是使电机在任意给定转速及电流下均能够输出最优转矩的参数,因此更加适用于电动汽车技术领域;②它是一种端到端的方法,即所有工作全部由算法自动完成,无需人工辅助操作,大大减少了标定工程师的工作量。

关键词:电动汽车 异步电机 参数标定 深度确信策略梯度

0 引言

异步电机的矢量控制因其稳定可靠、响应速度快等优点,在工业场合中得以大量应用。特别是近年来,异步电机的间接矢量控制(Indirect Field Oriented Control, IFOC)在电动汽车领域的使用上越来越广泛。在IFOC中,异步电机的输出性能与电机参数密切相关,因此有必要对异步电机的参数进行辨识和标定。

在电动汽车电机控制领域,参数标定任务并不完全等同于传统的电机参数辨识任务。传统的参数辨识方法是在电机控制系统建模的基础上,使用现代控制理论对系统模型参数进行辨识,所辨识出的数值即为电机的模型参数值。然而,在电动汽车电机控制领域中,目标有所不同:为了提高整车的动力特性以及延长整车的续航里程,一般希望辨识出的参数能使电动汽车电机在任意给定转速和给定电流下尽可能地输出最大转矩和最高效率[1]。以往的研究表明,在电机运行过程中,能使电机运行在最优转矩状态的参数往往并非固定的电机模型参数,而是随着电机运行工况的不同而发生变化的值[2]。因此,电动汽车电机在安装之前,一般会在电机测试台架上对电机进行测试,根据电机不同的转速以及不同的电流对电机的参数进行更精细的调整,以确定不同工况下的电机参数最优值,再将这些参数以表格的形式存储至电机控制器中,以供在电机运行的过程中进行查询,上述的过程称之为电动汽车电机的参数标定过程。以往的电动汽车电机参数标定多采用人工标定法,对工程师的技术要求高、工作强度大、标定周期长、标定精度也不够理想[3]。因此,如何减少电机参数标定的工作量是近年来电动汽车电机控制领域急需解决的问题。

为解决上述问题,本文介绍一种研究基于深度确信策略梯度(Deep Deterministic Policy Gradient, DDPG)的电动汽车异步电机参数标定方法。DDPG是近年来提出的一种适用于连续状态和连续动作空间的深度强化学习算法,采集合适的电机信号作为算法的观测值和奖励值送入DDPG,并设计合适的动作策略,便可以对电机的任意状态进行电机参数的自动标定。相比于其他方法,基于DDPG的电动汽车电机参数标定方法的优势在于:

(1)与传统电机参数辨识方法获取的电机模型参数不同,DDPG标定的电机参数是使电机在任意给定转速和给定电流下都能输出最优转矩的参数,同时标定参数的精度不会受到模型误差和外部干扰的影响,因此更加适合于电动汽车电机控制领域的要求。

(2)与人工标定方法相比,DDPG的参数标定方法是一种端到端的方法,即所有电动汽车工况下的电机参数标定工作均由算法自动完成,无需人类工程师进行辅助操作。

1 模型驱动型参数辨识方法与数据驱动型参数辨识方法

DDPG具有如引言所述独特优势的根本原因是DDPG并非传统的模型驱动型参数辨识方法,而是一种完全基于实际数据的数据驱动型参数辨识方法。传统的异步电机参数辨识方法主要基于电机模型的参数辨识方法,这类方法共同的特点是先建立异步电机的等效电路模型或微分方程模型,再使用现代控制理论进行上述模型参数的辨识,称之为模型驱动型方法。较为经典的模型驱动型方法有:空载-堵转法、基于模型参考自适应的辨识方法[4]、基于扩展卡尔曼滤波器的辨识方法[5]、基于全阶观测器的辨识方法以及基于滑模观测器的辨识方法[6]等。模型驱动型方法辨识的是电机的模型参数,在IFOC中,使用模型参数可以提高控制精度,加快控制响应[7],但是由于模型驱动型参数辨识方法大多数使用的是未考虑电机铜损和铁损的近似模型,通过这种近似模型辨识出的参数并不能保证电机在任意工况下都能输出最大转矩和最优效率,也不会随着电机状态的变化而发生改变[8]。因此,大多数模型驱动型异步电机参数辨识方法并不适用于电动汽车异步电机的参数标定。值得说明的是,近年来已经有学者注意到这个问题,并针对性地提出了一些改进的模型驱动型参数辨识方法,可使得辨识值根据电机不同的工况而自行调整[9],但是这些方法本质上仍依赖于电机的近似模型,因此只能部分地减少铜损和铁损的影响[10]

另一类异步电机参数辨识方法是完全基于实际采集数据的辨识方法。这类方法的共同特点是先采集电机的实际运行数据,再根据特定指标采用数据挖掘的方法对电机参数进行推断,称为数据驱动的电机参数辨识方法。较为经典的方法有:基于神经网络的辨识方法[11]、基于支持向量机的辨识方法[12]以及基于粒子群优化的辨识方法[13]等。这类方法不用建立电机的系统模型,因此辨识的参数并非电机系统模型的参数,而是能使电机的运行特性满足特定要求的参数,符合电机参数标定任务的要求。然而,上述数据驱动型方法均存在一个缺陷:需要大量的人工标注的标签数据进行训练[14],而人工标注的标签数据在实际工程中是很难获取的,因此上述方法实际上也难以应用于实际工程。

近年来,强化学习技术的发展为电动汽车电机的参数标定提供了新思路。强化学习同样是一种数据驱动型方法,所不同的是强化学习所需要的标签数据可以在学习的过程中自动产生而不需要手工标注[15]。本文所使用DDPG方法是基于连续动作空间中的深度强化方法,可以基于奖励自动获得电机标定参数的精确值,因此适用于电机参数标定任务。

2 基于最大输出转矩的电动汽车异步电机参数标定

电动汽车异步电机的d、q轴电压方程为

width=126.75,height=46.75 (1)

电机电磁转矩表达式为

width=73.1,height=32.15 (2)

式中,w 为电角速度;Te为电磁转矩;np为极对数;usdusqisdisq分别为d、q轴电压和电流;RsRr分别为定子电阻和转子电阻;Lm为励磁电感;LsLr分别为定、转子电感,表示为

width=61.45,height=32.85 (3)

式中,LssLsr分别为电机的定、转子漏感。相对于LmLssLsr非常小,可忽略不计,因此可近似为

width=57.75,height=15.1 (4)

在IFOC中,转子磁链定向角d 是影响异步电机输出性能的重要因素,一般计算为

width=100.2,height=62.95 (5)

式中,wr为电机的机械转速;imd为电机的励磁电流;Tr为电机的转子时间常数,可表示为

width=59.95,height=29.9 (6)

可以看出,除了电机的转速测量信号外,转子电阻Rr和励磁电感Lm是影响转矩输出的关键参数,需对RrLm进行参数辨识。设RrLm为转子电阻和励磁电感的真实值,width=13,height=15width=15,height=15为转子电阻和励磁电感的标定值,由式(2)、式(5)可推导出基于辨识值的转矩[16]

width=163,height=51 (7)

综上所述,在特定转速、特定isdisq下,可将基于最大输出转矩的电动汽车异步电机标定问题等效为带约束条件的优化问题,记为

width=222.95,height=51(8)

其中

width=173,height=159

式中,C1C2C3为恒定值;fmax为异步电机的磁通饱和值;width=29,height=17width=28,height=17width=31.95,height=17width=31.95,height=17分别为标定参数width=13,height=15width=15,height=15的上、下限值;Umax为电机控制器输出的最大电压。

由于RrLm未知,无法从式(8)中直接计算出width=13,height=15width=15,height=15最优值,故需采用搜索法对width=13,height=15width=15,height=15最优值进行求解。本文中,采用数据驱动型的深度确信策略梯度的方法实现width=13,height=15width=15,height=15最优值的求解。

3 基于深度确信策略梯度的参数标定方法

3.1 整体结构

基于DDPG的电动汽车电机参数标定任务本质上为一强化学习任务[16],电机参数标定的强化学习框架如图1所示。采用强化学习的观测s来表示;电机信号的采样值采用强化学习的动作a来表示,通过特定的策略对标定参数进行调整;采用强化学习的奖励r来表示参数变化后的性能调整。DDPG是一种适用于连续动作空间的强化学习方法,因此算法结束后可以直接获取电机参数的准确值。

width=141,height=82.8

图1 电机参数标定的强化学习框架

Fig.1 Reinforcement learning frame used for motor parameters calibration

基于DDPG的电动汽车异步电机参数标定的整体框架示意图如图2所示。电机运行于IFOC的转矩模式,采集电机的d、q轴电压usdusq及d、q轴电流isdisq作为DDPG的观测,记为width=83,height=20;采集电机输出转矩Te作为DDPG的奖励,记为r =Te;DDPG输出的动作即为调整后的转子电阻和励磁电感标定值,记为a =width=18,height=17,width=20,height=17。DDPG根据观测和奖励不断调整输出动作。基于策略梯度[17]的思想,DDPG首先计算策略函数为

width=208,height=20.95(9)

width=227.9,height=125.5

图2 使用DDPG进行参数标定的整体框架示意图

Fig.2 Diagram of parameter calibration using DDPG

再通过不断提升width=28,height=15的梯度,即

width=168.2,height=38.8 (10)

式中,width=13.95,height=15为参数为width=9,height=12的策略;J为策略函数;width=11,height=12为策略的概率分布;width=23,height=16s服从width=11,height=12分布的期望;width=11,height=12为梯度;Q(s,a)为观测为s、动作为a的条件下,策略width=9,height=10的价值函数。逐步提高动作累积的奖励,经过一定次数的迭代后,便可以收敛于最大奖励时的动作值。

DDPG采用了Actor-Critic架构[18]来加速算法收敛,并增加了更新+滤波的双结构来增强算法的鲁棒性,其内部结构示意图如图3所示。从图3中可以看出,DDPG由Q值计算神经网络(简称Q-net)和策略梯度计算神经网络(Policy Gradient-net, PG-net)两个部分组成[19]Q-net的作用在于搜索到最优的输出转矩,PG-net的作用在于根据Q-net搜索到的最优的奖励值进行感应电机关键参数值的选择。为了确保算法稳定性,Q-net和PG-net内部又分为两个子神经网络,分别称为在线更新神经网络(Online update-net)和滤波神经网络(Filtering- net)。其中,Online update-net使用随机梯度下降技术更新神经网络中的权重矩阵,而Filtering-net则使用一阶惯性滤波技术对Online update-net的权重矩阵进一步的更新,具体实现为

width=134.65,height=35 (11)

式中,width=15,height=15width=17,height=15分别为Q-net中的Online update-net和Filtering-net神经网络权重矩阵;width=13.95,height=15width=15,height=15分别为PG-net中的Online update-net和Filtering-net神经网络权重矩阵;width=9,height=10为滤波系数。Q-net和PG-net中的Online update-net和Filtering-net的具体神经网络结构如图4所示,均为4个输入层神经元,一层隐含层包含30个隐含层神经元,以及1个输出层神经元。

width=419.05,height=147.15

图3 DDPG内部结构示意图

Fig.3 Diagram of DDPGinternalstructure

width=158.5,height=84.5

图4 神经网络结构

Fig.4 Structure of the neural network

3.2 算法流程

在给定转速n和给定电流isdisq下,基于DDPG的电动汽车异步电机参数标定算法步骤为:

(1)在进行电机台架测试前,首先将数据池和初始观测值清零,再将Q-net和PG-net中的所有参数初始化为0.01。

(2)当电机在测试台架上运行时,采集电机d、q轴电压和电流作为观测值,将当前辨识的转子电阻width=13,height=15、励磁电感width=15,height=15作为动作值送入DDPG。

(3)为保证算法可以搜索到全局最优解,在初始动作中叠加一高斯噪声width=78,height=15,从而提高算法的探索能力,其中,width=12,height=15为高斯噪声的均值,width=13.95,height=15为高斯噪声的方差。同时,DDPG采用批量随机梯度下降技术[20]以提高算法的抗扰性,即将采集的观测信号先送入数据池D中,再从数据池随机批量抽取数据进行梯度下降训练。奖励设定并非单纯的Te,而是设定为

width=149.45,height=27.7 (12)

式中,rt为当前奖励;Te(t)为当前时刻转矩;width=39,height=20为数据池存储的所有转矩数据的平均值。使用式(12)作为奖励的优势在于可以提升算法对奖励的敏感性,同时提高算法的收敛速度[21]

(4)Q-net采用反向传播算法进行训练,其中标签y由Bellman方程[17]求得,记为

width=137.75,height=16.9 (13)

式中,width=17,height=12[0,1]称为贴现因子;i为当前时刻;i+1为下一时刻。

在式(13)的基础上,可写出Q-net反向传播算法训练的损失函数L

width=132.95,height=31.35 (14)

式中,M为每次从数据池D中采集的数据个数;width=62,height=17为在Q-net中的Online update-net神经网络权重矩阵为width=15,height=15、观测为si、动作为ai的条件下,Q-net中的Online update-net输出的价值函数。

(5)PG-net采用策略梯度的方法进行训练,策略梯度[19]

width=36.25,height=16.95width=113.1,height=20.85width=56,height=21

width=200.35,height=30.95(15)

式中,width=39,height=17为PG-net中的Online update-net神经网络权重矩阵为width=13.95,height=15、观测为s的条件下,PG-net中的Online update-net输出的价值函数。

(6)经过一阶惯性滤波将迭代完成后的算法动作值记录为最终标定值。

4 实验结果与分析

4.1 实验环境与参数设置

为证明本文提出方法的有效性,在电机测试台架上对算法进行实际验证。实验平台示意图如图5所示。实验时,将测试电机运行在转矩模式,测功机电机运行在转速模式,设定测功机电机的转速n、测试电机的励磁电流isd和转矩电流isq,并从转速-转矩传感器获得测试电机的转矩信号Te。电机控制器采集电机的isdisqusdusq和转矩传感器的转矩信号Te一并送入电机数据采集器。数据采集器将数据整理后通过CAN-BUS总线送入计算机,由计算机进行算法运算。计算机使用Ubuntu16.04系统,采用Python语言和深度学习库Tensorflow进行算法实现。计算机配置为:CPU:i6700k;RAM:16GB;GPU:GTX-1080。测试电机的参数见表1,算法的参数见表2。

width=190.7,height=196.45

图5 实验平台示意图

Fig.5 Experiment environment

表1 测试电机参数

Tab.1 Parameters of testing motor

参 数数 值 功率/kW15 额定电压/V144 峰值电流/A400 额定转矩/(N·m)48 峰值转矩/(N·m)108 最大转速/(r/min)6 000 真实转子电阻/W0.25 真实励磁电感/H0.041

表2 算法参数

Tab.2 Parameters of algorithm

参 数数 值 迭代次数300 数据池容量D100 随机抽取数据个数M32 辨识Rr限值/W0.1~1.0 辨识Lm限值/H0.001~0.08 高斯噪声均值m0.5(标定Rr), 0.05(标定Lm) 高斯噪声方差S0.1(标定Rr), 0.01(标定Lm) 折扣因子g0.9 滤波系数t0.1

4.2 转子电阻标定过程

DDPG对转子电阻标定过程中,为加快收敛过程,可将转子电阻的范围设定上、下限,见表2,并固定励磁电感Lm为空载-堵转法辨识出的冷态参数值。图6所示为在n=1 000r/min、isd=40A、isq=50A的工况下,基于DDPG的转子电阻标定过程,最终标定的转子电阻值为0.221 17W。可以看到,整个过程分为三个阶段:①探索阶段,这一阶段的主要作用是将数据存入数据池,用于下一阶段的算法学习;②学习阶段,当存储数据超过数据池容量后,DDPG开始进行算法学习;③标定阶段,算法收敛后便进入标定阶段,此时算法输出的值即为当前工况下的电阻标定值。

width=193.2,height=153.85

图6 基于DDPG的转子电阻标定过程

Fig.6 Rotor resistance calibration using DDPG

4.3 励磁电感标定过程

除了转子电阻,DDPG也能对励磁电感进行标定。DDPG对励磁电感的标定过程与转子电阻基本相似,唯一的区别在于需要重新设定励磁电感的上、下限,见表2,并固定转子电阻Rr为空载-堵转法辨识出的冷态参数值。在n=1 000r/min、isd=40A、isq=50A工况下,最终得到励磁电感的标定值为0.042 73H。基于DDPG的励磁电感标定过程如图7所示,可以看出,DDPG同样可以对励磁电感进行精确的标定。

width=189.85,height=150

图7 基于DDPG的励磁电感标定过程

Fig.7 Magnetizing inductance calibration using DDPG

4.4 与模型型驱动参数辨识方法的比较

与传统异步电机参数辨识方法相比,DDPG最大的不同之处在于其标定的参数并非电机的模型参数,而是能使电机在任何工况下都能输出最大转矩的参数值。本文以两种传统的参数辨识方法:空载-堵转(No load and Locked rotor, NL)法和模型参考自适应系统(Model Reference Adaptive System, MRAS)方法为例,阐述传统方法与DDPG方法的区别。由于MRAS存在很多变种,本文采用经典的以磁链作为参考模型和可调模型的模型参考自适应法。图8所示为n=1 000r/min,isd、isq分别从50A、10A变为50A、100A时,DDPG、NL以及MRAS的参数辨识结果。可以发现,NL和MRAS辨识得的转子电阻基本相同,且基本不随isd、isq的变化而变化,而DDPG标定的转子电阻则会随着isd、isq的变化而发生明显的变化,同时,使用DDPG输出的转矩要明显高于使用NL和MRAS方法。这是因为NL和MRAS是模型驱动型参数辨识方法,只能辨识电机的模型参数值,其辨识结果不会随着电机工况的不同而发生变化,而DDPG是以实际数据为观测,以转矩为奖励的数据驱动型参数辨识算法,因此会根据观测值和奖励值不断地调整参数使得电机的输出转矩最大化。

width=221.25,height=167.25

图8 DDPG、NL和MRAS方法进行Rr辨识的比较

Fig.8 Comparison of Rr using DDPG, NL and MRAS

为进一步说明DDPG和模型驱动型方法的不同,在低、中、高三个转速段内所有isd、isq工况下使用NL、MRAS和DDPG分别进行电机的参数辨识,并对辨识结果进行比较。在低速段(n=100r/min)、中速段(n=3 000r/min),主要比较转子电阻的辨识特性;在高速段(n=5 000r/min),主要比较励磁电感的辨识特性。三种方法的关键数值见表3,辨识参数和输出转矩的具体分布如图9~图12所示。

表3 NL、MRAS、DDPG方法比较的关键数值

Tab.3 Key data of the NL, MRAS and DDPG

关键数值NLMRASDDPG 低中速段isd范围/A20~7020~7020~70 低中速段isq范围/A20~17020~17020~170 高速段isd范围/A5~205~205~20 高速段isq范围/A20~17020~17020~170 低速段辨识/W0.2520.20~0.2440.1~1.0 中速段辨识/W0.2520.2520.1~1.0 高速段辨识/H0.07130.04460.039~0.081 低速段最大转矩/(N·m)61.549.781.5 中速段最大转矩/(N·m)64.564.571.9 高速段最大转矩/(N·m)16.324.226.5

width=187.65,height=494.35

图9 NL、MRAS和DDPG在不同转速不同isdisq时辨识值

Fig.9 Parameters estimation of different n and different isd, isq using NL, MRAS and DDPG

图9a、图9b分别为低速段、中速段使用NL、MRAS以及DDPG在所有isd、isq工况下对转子电阻值的辨识结果,整个图像为DDPG的辨识结果,NL、MRAS的辨识结果用虚线标出。可以看出,在低速段,NL辨识出的参数值在任意转速和电流的工况下都为0.252W,MRAS由于受到定子电阻压降及外部干扰等影响,在0.20~0.244W 之间波动,而DDPG在不同的isd、isq工况下,都会得到不同且唯一的解。在中速段,NL和MRAS获得了同样的参数值0.252W,而DDPG仍然会在不同的isd、isq工况下,得到不同且唯一的解,其具体变化为:DDPG标定的转子电阻在高isdisq的工况下往往会大于实际物理参数值,而在低isdisq的工况下往往会小于实际物理参数值。

图9c所示为电机运行在高速段时,使用DDPG、NL以及MRAS在所有isd、isq工况下对励磁电感的标定结果,整个图像为DDPG的辨识结果,NL、MRAS的辨识结果用虚线标出。可以看出,NL获得的励磁电感不会随着转速的升高而变化,而使用MRAS辨识的励磁电感参数会随着转速的升高而升高。对于DDPG,不仅监测到了励磁电感的变化,还使励磁电感标定值随着isd、isq的值发生变化,以达到减少铁损,输出更高转矩的目的[22]

图10a~图10c分别为在低速段使用NL、MRAS以及DDPG在所有isd、isq工况下的转矩输出特性。可以看出,NL的输出转矩要优于MRAS,这是因为MRAS的参考模型中包含有定子电压,在低速段,电机的定子电压很低,极易受到电机定子电阻压降和外部噪声的影响,进而导致参数辨识精度降低。而DDPG不使用电机的数学模型,不会受到模型误差和外部干扰的影响。

width=183.7,height=491.35

图10 不同方法辨识的转子电阻在n=100r/min、不同isdisq工况下电机的转矩输出值

Fig.10 The output torque using estimated Rr at n=100r/min and different isd, isq

图11a~图11c分别为在中速段使用NL、MRAS以及DDPG在所有isd、isq工况下的转矩输出特性。可以看出,MRAS和NL具有相同的转矩输出特性,而DDPG相较两种传统方法同样能输出更大的转矩。这是因为DDPG在任意给定转速和给定电流下,都会以转矩最优为目的对电机参数做更为精细的调整,从而达到减少铜损和铁损,使电机运行于高效区的目的[23]

width=187.15,height=503.7

图11 不同方法辨识的转子电阻在n=3 000 r/min、不同isdisq工况下电机的转矩输出值

Fig.11 The output torque using estimated Rr at n=3 000r/min and different isd, isq

图12a~图12c分别为在高速段使用NL、MRAS以及DDPG在所有isd、isq工况下的转矩输出特性。可以看出,在高速段,MRAS的输出转矩要优于NL,这是因为MRAS可以辨识变化的励磁电感,从而获得比NL更高的输出转矩。而对于DDPG,则可以根据不同的isd、isq值进行励磁电感的调整,从而使电机输出比NL和MRAS更高的转矩。

width=192.1,height=509.7

图12 不同方法辨识的励磁电感在n=5 000r/min、不同isdisq工况下电机的转矩输出值

Fig.12 The output torque using estimated Rr at n=5 000r/min and different isd, isq

图13为低速、中速和高速时,使用DDPG与MARS得到相同转矩所需要的isd、isq电流曲线。可以看出,同样的转矩,DDPG相比MRAS所需要的电流更小,从而使异步电机具有最优转矩电流比的特性。

综上所述,无论是相较于传统的离线参数辨识方法还是传统的在线辨识方法,在参数标定方面DDPG都具有更明显的优势。其原因在于相较于传统的模型驱动型参数辨识方法,数据驱动型的DDPG方法的优势在于:

width=185.85,height=507.05

图13 分别使用NL、MRAS和DDPG,相同的转矩所需的isdisq曲线

Fig.13 The comparison of equal torque of isd, isq using NL, MRAS and DDPG

(1)DDPG不会受到模型误差和外部干扰影响。

(2)DDPG可以根据电机运行的不同状态对标定参数进行相应的调整。

(3)DDPG标定的参数可以使电机在任意给定转速和给定电流下输出最大的转矩,从而使电机具有最优转矩电流比的特性。

4.5 与人工标定方法相比较

DDPG的另一个优势在于可大大减少人工标定的工作量。由于目前电动汽车电机工程领域的电机参数标定方法仍主要依赖于人工标定,即通过不断的测试,依据标定工程师的经验进行试凑性的参数标定工作。由于电动汽车工况较为复杂,一台电机往往要标定几十甚至上百个工况点,这大大增加了标定工程师的工作强度和工作周期。与人工标定方法不同,本文所述的DDPG方法是一种端到端的方法,即只要设定好对应的转速以及对应的isdisq并循环运行DDPG,DDPG则会自动进行全状态范围内的参数标定工作,无需工程师进行额外的参与。以某公司电机控制器产品的实际标定过程为例,需对某款电机全工作段标定200个工况点,图14所示为使用DDPG方法和人工标定方法的时间比较。可以看出,虽然DDPG方法总用时更长,为16h,但是基本不需要人工操作,而使用人工标定方法虽然只需要10h,但是所有时间基本都需要人工计算和操作。因此,使用DDPG的参数标定方法可以大大减轻标定工程师的工作量。

width=174.1,height=127.7

图14 使用DDPG方法和人工标定方法的时间比较

Fig.14 Comparisons of time cost between DDPG and manual calibration

5 结论

本文使用一种连续动作域的深度强化学习方法即深度确信策略梯度(DDPG)的方法,去实现电动汽车异步电机的参数标定任务。DDPG方法是一种数据驱动型参数标定方法,与传统的模型驱动型电机参数辨识方法不同,它不会受到模型误差以及外部干扰的影响;同时,DDPG方法标定的参数并非真正的电机系统模型的参数,而是使电机在任意给定转速和给定电流的工况下均能输出最优转矩的参数,因此相较于传统的模型驱动参数辨识方法,DDPG更加适应于电动汽车电机参数标定的要求。同时,DDPG方法是一种端到端的参数标定方法,即所有的工作由算法自动完成,无需人工辅助操作,因此大大减少了标定工程师的工作量。后续的工 作有:

1)本文的工作虽然只局限于电动汽车的离线参数标定,但是标定的结果仍可用于基于转矩最优的电机参数在线辨识方法,这是后续工作将要阐述的内容。

2)本文的工作虽然只适用于电动汽车异步电机的参数标定,但是只要采用合适的观测和奖励值,本文方法也适用于其他类型的参数标定,如永磁同步电机、开关磁阻电机等,这些将会在后续的工作中进行阐述。

3)本文方法只讨论采用输出转矩作为奖励,后续的工作中,将会阐述采用其他的信号作为奖励时,电机所呈现出的独特性能。

参考文献

[1] 崔纳新, 张承慧, 李珂, 等. 基于参数在线估计的交流异步电动机效率最优控制[J]. 电工技术学报, 2007, 22(9): 80-85.

Cui Naxin, Zhang Chenghui, Li Ke, et al. Efficiency optimization control of induction motor drives based on online parameter estimation[J]. Transactions of China Electrotechnical Society, 2007, 22(9): 80-85.

[2] 曹朋朋, 张兴, 杨淑英, 等. 基于李雅普诺夫稳定理论的异步电机在线转子时间常数辨识方法[J]. 中国电机工程学报, 2016, 36(14): 3947-3955.

Cao Pengpeng, Zhang Xing, Yang Shuying, et al. Online rotor time constant identification of induction motors based on Lyapunov stability theory[J]. Proceedings of the CSEE, 2016, 36(14): 3947-3955.

[3] 李松, 岳志芹, 韩松, 等. 一种永磁同步电机的自动标定方法系统和控制器: 中国: CN106301100A[P]. 2017-01-04.

[4] 曹朋朋, 张兴, 杨淑英, 等. 异步电机基于MRAC的转子时间常数在线辨识算法的统一描述[J]. 电工技术学报, 2017, 32(19): 62-70.

Cao Pengpeng, Zhang Xing, Yang Shuying, et al. Unified description of MRAC-based online rotor time constant identification algorithm for induction motors[J]. Transactions of China Electrotechnical Society, 2017, 32(19): 62-70.

[5] 张勇军, 孙寅飞, 王京. 基于单维离散滑模的模型参考自适应转速辨识方法[J]. 电工技术学报, 2012, 27(4): 54-58.

Zhang Yongjun, Sun Yinfei, Wang Jing. A speed estimation algorithm based on single-manifold discrete time sliding mode model reference adaptive system[J]. Transactions of China Electrotechnical Society, 2012, 27(4): 54-58.

[6] 刘金海, 陈为. 表贴式永磁同步电机准稳态多参数在线辨识[J]. 电工技术学报, 2016, 31(17): 154-160.

Liu Jinhai, Chen Wei. Online multi-parameter identi- fication for surface-mounted permanent magnet synchronous motors under quasi-steady-state[J]. Transactions of China Electrotechnical Society, 2016, 31(17): 154-160.

[7] Novotny D W, Lipo T A. Vector control and dynamics of AC drives[M]. Cambridge: Clarendon Press, 1996.

[8] Odhano S A, Bojoi R, Boglietti A, et al. Maximum efficiency per torque direct flux vector control of induction motor drives[J]. IEEE Transactions on Industry Applications, 2015, 51(6): 4415-4424.

[9] 张兴, 张雨薇, 曹朋朋. 基于定子电流和转子磁链点乘的异步电机转子时间常数在线辨识算法稳定性分析[J]. 中国电机工程学报, 2018, 38(16): 4863- 4872.

Zhang Xing, Zhang Yuwei, Cao Pengpeng. Stability analysis of a dot product of stator currents and rotor flux based online rotor time constant updating algorithm in induction motor drives[J]. Proceedings of the CSEE, 2018, 38(16): 4863-4872.

[10] 张兴, 张雨薇, 曹朋朋, 等. 基于改进转矩模型的异步电机转子时间常数在线辨识算法[J]. 中国电机工程学报, 2019, 39(11): 3363-3372.

Zhang Xing, Zhang Yuwei, Cao Pengpeng, et al. Improved torque model for online rotor time constant estimation in induction motor drives[J]. Proceedings of the CSEE, 2019, 39(11): 3363-3372.

[11] 王捷, 艾红. 基于自适应模糊神经网络的异步电动机SVM-DTC控制[J]. 电气技术, 2017, 18(9): 40-45.

Wang Jie, Ai Hong. SVM-DTC control of induction motor based on adaptive fuzzy neural network[J]. Electrical Engineering, 2017, 18(9): 40-45.

[12] 鞠鲁峰, 王群京, 李国丽, 等. 永磁球形电机的支持向量机模型的参数寻优[J]. 电工技术学报, 2014, 29(1): 85-90.

Ju Lufeng, Wang Qunjing, Li Guoli, et al. Parameter optimization for support vector machine model of permanent magnet spherical motors[J]. Transactions of China Electrotechnical Society, 2014, 29(1): 85-90.

[13] Liu Zhaohua, Wei Hualing, Zhong Qingchang, et al. Parameter estimation for VSI-fed PMSM based on a dynamic PSO with learning strategies[J]. IEEE Transactions on Power Electronics, 2017, 32(4): 3154-3165.

[14] Chen Yize, Shi Yuanyuan, Zhang Baosheng. Optimal control via neural networks: a convex approach[C]// International Conference on Learning Representa- tions, New Orleans, Louisiana, United States, 2019: 256-264.

[15] 漆星, 张倩. Actor-Critic框架下的数据驱动异步电机离线参数辨识方法[J]. 电工技术学报, 2019, 34(9): 1875-1885.

Qi Xing, Zhang Qian. Data-driven induction motor parameters offline identification method based on Actor-Critic framework[J]. Transactions of China Electrotechnical Society, 2019, 34(9): 1875-1885.

[16] Sutton R S, Barto A G. Reinforcement learning: an introduction[M]. Cambridge: MIT Press, 1998.

[17] Sutton R S, Mcallester D A, Singh S P, et al. Policy gradient methods for reinforcement learning with function approximation[C]//Neural Information Pro- cessing Systems, Denver, Colorado, 1999: 1057- 1063.

[18] Peters J, Schaal S. Natural actor-critic[J]. Neuro- computing, 2008, 71(7): 1180-1190.

[19] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[C]//Inter- national Conference on Learning Representations, San Juan, Puerto Rico, 2016: 219-225.

[20] Mnih V, Kavukcuoglu K, Silver D, et al. Human- level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-543.

[21] Qi Xing. Rotor resistance and excitation inductance estimation of an induction motor using deep-Q- learning algorithm[J]. Engineering Applications of Artificial Intelligence, 2018, 72(6): 67-79.

[22] Levi E. Impact of iron loss on behavior of vector controlled induction machines[J]. IEEE Transactions on Industry Applications, 1995, 31(6): 1287-1296.

[23] 李洁, 杜茜, 宋海军, 等. 考虑铁损的异步电机参数辨识实验研究[J]. 电工技术学报, 2014, 29(3): 89-95.

Li Jie, Du Xi, Song Haijun, et al. Experimental evaluation of induction machine parameter identi- fication considering iron loss[J]. Transactions of China Electrotechnical Society, 2014, 29(3): 89-95.

An Electric Vehicle Induction Motor Parameters Calibration Method Based on Deep Deterministic Policy Gradient

Qi Xing Zheng Changbao Zhang Qian

(College of Electrical Engineering Anhui University Hefei 230601 China)

Abstract Most existing calibration methods of electric vehicle induction motor parameters have the problems of low calibrated accuracy and large workload. Therefore, a method for calibrating electric vehicle induction motor parameters based on deep deterministic policy gradient is proposed, and the framework of algorithm for induction motor parameter calibration task is illustrated. The experimental results verify the effectiveness and feasibility of the proposed method. The proposed method has the following advantages:① the parameters calibrated by the proposed method are not the real modeling parameters, but the ones that enable the motor to run at the optimal torque in any given speed and current, which is more suitable for electric vehicle application; ②the proposed method is an end-to-end method, that is, all work is automatically completed by computers without manual assistance, thereby greatly reducing the workload of the calibration engineers.

keywords:Electric vehicle, induction motor, parameter calibration, deep deterministic policy gradient

中图分类号:TM351

DOI: 10.19595/j.cnki.1000-6753.tces.191095

国家自然科学基金资助项目(51507001)。

收稿日期 2019-08-27

改稿日期 2019-12-14

作者简介

漆 星 男,1985年生,博士,讲师,研究方向为工业应用中的人工智能技术。E-mail: 10031@ahu.edu.cn

郑常宝 男,1961年生,教授,硕士生导师,研究方向为电机控制与电力电子。E-mail: zhengchb@ahu.edu.cn(通信作者)

(编辑 陈 诚)