近年来,神经网络自适应控制已成为控制理论与工程应用领域中的一个研究热点,其研究成果为解决非线性不确定系统控制设计问题提供了重要方法[1-6]。这些成果的共同特点是:基于神经网络的万能逼近性能,利用神经网络逼近非线性系统中的未知不确定函数,然后采用自适应控制技术设计系统的控制器。在控制器的设计过程中,反向传播(Back Propagation, BP)神经网络因其强大的逼近性能、并行处理能力和强的鲁棒特性而被广泛采用。如文献[7]利用BP神经网络对被控对象进行在线辨识和控制,并结合常规的比例积分微分(Proportion Integration Differentiation, PID)控制器,提出了一种基于BP神经网络的自适应PID控制器。文献[8]采用BP神经网络来逼近非线性离散系统中的未知动态项,通过结合一个死区算法来更新网络中的权值向量,保证了整个控制系统的稳定性和收敛性。文献[9]针对一类带有未知动态项或者噪声干扰项的仿射非线性系统,利用BP神经网络的万能逼近性能,提出了一种新型的控制律,并应用到气动伺服系统的位置跟踪控制,取得了良好的控制效果。虽然上述文献在自适应控制方面取得了不少突破,但它们仍旧没办法解决BP神经网络收敛速度慢的问题[10],特别是当神经元的数目较多时,在线调节的自适应参数数目将大量增加,这样容易导致学习时间过长,使得控制效果不佳。另外,BP神经网络是一种局部寻优方法,权值是沿着局部改善的方向逐渐调整的。当它要解决一个全局的复杂非线性自适应控制问题时,很容易陷入局部极小值[11],从而导致控制的失败。
为解决以上问题,不少学者针对BP神经网络自适应控制作了很多研究。文献[12]利用BP神经网络的误差反向传播机制,解决了控制器中的权值修正问题,使得该控制器具有良好的控制效果。文献[13]结合粒子群优化算法和BP神经网络的万能逼近特性,提出了一种新型的自适应控制方法。该方法不仅可以提高全局搜索能力,而且能够加快收敛。文献[14]提出了一种混合训练算法,其中输入层和隐层的权值训练采用的是自组织学习算法,隐层和输出层的权值训练采用的是梯度下降法,这种混合算法能够起到减少网络训练时间的作用。尽管以上方法在一定程度上减少自适应控制过程中参数的在线调节时间,但目前仍旧没有给出一种统一的、有规律可循的方法来解决这个问题。因此,本文提出了一种具有普遍性,能够适合任何一种神经网络类型(本文以BP神经网络为例)的解决方法。该方法在神经网络的输入输出端加载伸缩器和饱和器,先利用离线数据来训练神经网络的权值向量,再通过调节在线的自适应参数,最后实现了控制整个系统的目的。伸缩器和饱和器的加入,使得该方法在控制器的设计过程中,只需要调节伸缩因子和神经网络的逼近精度估计值,这样可以有效地减少在线的调节参数、减轻计算负担,并且能够保证整个闭环系统的所有状态一致终极有界。
1 预备知识与问题描述定义1 一个Rn到Rn的映射ϕ:
定义2 一个Rn到Rn的映射sat:
$ sat({z_i}) = \left\{ \begin{gathered} -{\boldsymbol{\varpi} _i}, \;\;\;\;\;\;\;\;{z_i} <-{\boldsymbol{\varpi} _i} \hfill \\ {z_i}, \;\;\;\;\;\;\;\;\;\;\;\left| {{z_i}} \right| \leqslant {\boldsymbol{\varpi} _i} \hfill \\ {\boldsymbol{\varpi} _i}, \;\;\;\;\;\;\;\;\;\;{z_i} > {\boldsymbol{\varpi} _i} \hfill \\ \end{gathered} \right. $ |
式中:
定义3 在一个BP神经网络的输入端加载一个伸缩器和一个饱和器,并在其输出端加载一个伸缩器,结构如图 1所示,称之为k阶扩展的BP神经网络系统(k-order extended BP neural network system),记为ENS(N, k)。
图 1中,扩展的BP神经网络ENS(N, k)的输出为:
$ \bar y = {\xi ^k} \cdot {y_o} = {\xi ^k} \cdot N\left( {sat\left( {z/\xi } \right)} \right) $ | (1) |
当‖z/ξ‖≤
$ \bar y = {\xi ^k} \cdot N\left( {z/\xi } \right) $ | (2) |
BP神经网络的输出为:
$ {y_o} = \sum\limits_\boldsymbol{j} {{w_{jo}} \cdot {{z'}_\boldsymbol{j}}} = \sum\limits_\boldsymbol{j} {{w_{jo}}} \cdot f({z_j}) = \sum\limits_j {{w_{jo}}} \cdot \frac{1}{{1 + {{\text{e}}^{-{z_j}}}}} $ | (3) |
其中
引理1 考虑在Rn上连续的k次齐次函数γ(z),也即对于任意正实数λ满足γ(λz)=λkγ(z)。如果存在一个BP神经网络N和正实数M,在紧致域z∈{z|‖z‖≤
$ \mathop {\sup }\limits_{\left\| z \right\| \leqslant \varpi } \left| {\gamma \left( z \right)-N\left( z \right)} \right| \leqslant M $ | (4) |
那么扩展的BP神经网络ENS(N, k)的输出满足:
$ \mathop {\sup }\limits_{\left\| z \right\| \leqslant \left| \gamma \right|\varpi } \left| {\gamma (z)-{\xi ^k}N(z/\xi )} \right| \leqslant {\left| \xi \right|^k}\boldsymbol{M} $ | (5) |
证明 由齐次函数的定义有γ(z)-ξkγ(z/ξ)=0,因此当z∈{z|‖z‖≤|ξ|
$ \begin{gathered} \left| {\gamma (z)- {\xi ^k}N(z/\xi )} \right| = \left| {\gamma (z)- {\xi ^k}\gamma (z/\xi ) + } \right. \hfill \\ \left. {{\xi ^k}[\gamma (z/\xi )-N(z/\xi )]} \right| = \hfill \\ {\left| \xi \right|^k}\left| {\gamma (z/\xi ) -N(z/\xi )} \right| \leqslant {\left| \xi \right|^k}\boldsymbol{M} \hfill \\ \end{gathered} $ | (6) |
考虑如下非线性系统:
$ \dot z = \boldsymbol{Az} + \boldsymbol{B}[h(z, t) + (r + \Delta r)u] $ | (7) |
其中:u为控制输入; 系统状态矢量z=(x,
假定1 矩阵(A, B)是可控的,因此存在1×n阶矩阵K使A+BK是Hurwitz矩阵,并且对于任意给定的正定矩阵Q,下列Lyapunov方程有唯一正定矩阵解P:
$ {(\boldsymbol{A} + \boldsymbol{BK})^{\rm T}}\boldsymbol{P} + \boldsymbol{P}(\boldsymbol{A} + \boldsymbol{BK}) =-\boldsymbol{Q} $ | (8) |
假定2 1) 在有界闭集
假定3 对于系统式(7),当饱和器满足条件{z|‖z‖≤
$ \mathop {\sup }\limits_{z \in \tilde U} \left| {{\Delta _i}(z)-{N_i}(z)} \right| \leqslant {\varepsilon _i}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} i = 0, 1, \cdots, s $ | (9) |
其中:
由引理1和假定3,可以得到下面不等式:
$ \begin{gathered} \mathop {\sup }\limits_{\left\| z \right\| \leqslant \left| \gamma \right|\varpi } \left| {{\Delta _j}(z)-{\xi ^{{k_j}}}{N_j}(z/\xi )} \right| \leqslant {\left| \xi \right|^{{k_j}}}{\varepsilon _j}{\kern 1pt} ; \hfill \\ \;\;\;j = 0, 1, \cdots, s \hfill \\ \end{gathered} $ | (10) |
对于非线性系统式(7),利用扩展的BP神经网络来设计相应的自适应正定控制器。设εj是神经网络Nj与未知函数Δj的逼近精度,
$ \dot z = \boldsymbol{A}z + \boldsymbol{B}\left[{h\left( {z, t} \right) + \left( {r + \Delta r} \right)u} \right] $ | (11) |
$ \dot \xi = \rho (z, \xi, \hat \varepsilon ) $ | (12) |
$ \dot {\hat \varepsilon } = \pi \left( {z,\xi ,\hat \varepsilon } \right) $ | (13) |
$ u = u(z, \xi, \hat \varepsilon ) $ | (14) |
其中:Z=(zT, ξ,
控制目标:设计相应的控制器
情况a 当
$ u = 0 $ | (15) |
$ \begin{gathered} \dot \xi = \frac{1}{{2\xi {\varpi ^2}}}\{ \lambda + 2\sqrt {n- 1} {\left\| z \right\|^2} + \hfill \\ 2\left\| z \right\| \cdot [\sum\limits_{i = 1}^s {{{\hat \varepsilon }_i}} + \sum\limits_{i = 1}^s {\left| {{N_i}(z)} \right|} + \phi (z, t)]\} \hfill \\ \end{gathered} $ | (16) |
$ {\dot {\hat \varepsilon} _j} = \left\{ \begin{gathered} 0,\;\;\;\;\;\;\;\;\;\;\;\;j = 0 \hfill \\ 2\beta \left\| z \right\|,\;\;\;\;\;j = 1,2,...s \hfill \\ \end{gathered} \right. $ | (17) |
其中:λ和β是可调的正常数。
引理2 对于闭环系统(式(11)~(14)),如果假定1~3和
证明 记
$ \dot V = s\left[ {{{\dot z}^{\text{T}}}z + {z^{\text{T}}}\dot z - 2\xi \dot \xi {\varpi ^2} + {\beta ^{ - 1}}{{\tilde \varepsilon }^{\text{T}}}\dot {\tilde \varepsilon }} \right] \leqslant - \lambda s $ | (18) |
根据文献[15]和式(18),可以知道闭环系统的状态能在有限的时间内到达曲面s=0,即{Z|s=0}
引理2得证。
情况b当
$ u = {u_1} + {u_2} $ | (19) |
$ {u_1} =-\frac{1}{{{r_{\max }}}}\sum\limits_{j = 0}^s {{\xi ^{{k_j}}}{N_j}(z/\xi )} $ | (20) |
$ {u_2} =-\frac{{\phi (z, t) + \varphi (z, t)\left| {{u_1}} \right|}}{{{r_{\min }}-\varphi (z, t)}}{\text{sign}}({\boldsymbol{B}^{\rm T}}\boldsymbol{Pz}) $ | (21) |
伸缩因子和逼近精度估计值的更新律分别是:
$ \begin{gathered} \dot \xi =-\frac{{{\lambda _{\min }}(\boldsymbol{Q})}}{{2{\lambda _{\max }}(\boldsymbol{P})}}\xi-2\chi \varpi \left\| {\boldsymbol{PB}} \right\|(\sum\limits_{j = 0}^s {{{\left| \xi \right|}^{{k_j}}}{{\hat \varepsilon }_j}} )\overline {{\text{sign}}} (\xi )-\hfill \\ {\xi ^{ - 1}}\frac{{{\lambda _{\min }}(\boldsymbol{Q})}}{{2\delta {\lambda _{\max }}(\boldsymbol{P})}}\sum\limits_{j = 0}^s {\hat \varepsilon _j^2} \hfill \\ \end{gathered} $ | (22) |
$ {\dot {\hat \varepsilon} _j} =-\frac{{{\lambda _{\min }}(\boldsymbol{Q})}}{{{\lambda _{\max }}(\boldsymbol{P})}}{\hat \varepsilon _j} + 2\delta \varpi \xi \left\| {\boldsymbol{PB}} \right\| \cdot {\left| \xi \right|^{{k_j}}}\overline {{\text{sign}}} (\xi ) $ | (23) |
其中:χ和δ为可调的正常数;λmin是矩阵Q的最小特征值;λmax是矩阵P的最大特征值;
引理3 对于闭环系统(式(11)~(14)),如果假定1~3和
证明 考虑正定函数
$ \begin{gathered} \dot V(t) =- {z^{\rm T}}\boldsymbol{Qz} + 2\frac{r}{{{r_{\max }}}}{z^{\rm T}}\boldsymbol{PB}\{ \sum\limits_{j = 0}^s {[{\Delta _j}(z)}-{\xi ^{{k_j}}}{N_j}(z/\xi )]\} + \hfill \\ 2{z^{\rm T}}\boldsymbol{PB}[v(z, t) + \Delta r({u_1} + {u_2}) + r{u_2}] + {\chi ^{ -1}}\xi \dot \xi + \hfill \\ {\delta ^{ -1}}\sum\limits_{j = 0}^s {{{\tilde \varepsilon }_j}} {{\dot {\tilde \varepsilon} }_j} \hfill \\ \end{gathered} $ | (24) |
由
$ \dot V(t) \leqslant-\frac{{{\lambda _{\min }}(\boldsymbol{Q})}}{{{\lambda _{\max }}(\boldsymbol{P})}}V(t) + \frac{{{\lambda _{\min }}(\boldsymbol{Q})}}{{2\delta {\lambda _{\max }}(\boldsymbol{P})}}\sum\limits_{j = 0}^s {\varepsilon _j^2} $ | (25) |
由式(25) 得到不等式:
$ V(t) \leqslant {e^{-\frac{{{\lambda _{\min }}(\boldsymbol{Q})}}{{{\lambda _{\max }}(\boldsymbol{P})}}t}}V(0) + \frac{1}{{2\delta }}\sum\limits_{j = 0}^s {\varepsilon _j^2} $ | (26) |
由式(26) 知,对于任意给定实数σ>0,考虑关于点
$ \left\| z \right\| \leqslant \sqrt {(\sigma + 0.5{\delta ^{-1}}\sum\limits_{j = 0}^s {\varepsilon _j^2} )/{\lambda _{\min }}(\boldsymbol{P})} $ | (27) |
$ \left| \xi \right| \leqslant \sqrt {2\lambda (\sigma + 0.5{\delta ^{-1}}\sum\limits_{j = 0}^s {\varepsilon _j^2)} } $ | (28) |
$ \sum\limits_{j = 0}^s {\tilde \varepsilon _j^2} \leqslant \sqrt {2\delta (\sigma + 0.5{\delta ^{-1}}\sum\limits_{j = 0}^s {\varepsilon _j^2)} } $ | (29) |
引理3得证。
结合以上两种情况,可以得出下面定理。
定理1 对于闭环系统(式(11)~(14)),如果假定1~3成立,那么在控制方案(式(15)~(17))和(式(19)~(23))的作用下,闭环系统的所有状态变量
整个神经网络自适应控制的设计流程如图 2所示。
考虑如下二阶系统:
$ {\dot x_2} = h(z, t) + u(t) = \sum\limits_{k = 1}^2 {{h_k}} (z) + u(t) $ | (30) |
其中:系统的状态变量z=(x1, x2)T,
根据假定2~3,需要离线数据训练三个BP神经网络N0、N1、N2来逼近未知的连续齐次函数Δ0=-Kz、Δ1=h1(z)、Δ2=h2(z),其中K=(-3, -4)。在训练过程中,采用的算法是梯度下降法。神经网络的层数是3层,隐层的神经元个数为6,网络结构是:1—6—1。训练完成后,将可以得到相应的网络权值,并保持这些权值不变。
接着进行在线自适应调节,取控制参数:v(z, t)=0,δ=0.5,χ=0.1,λ=0.5,β=0.001,ϕ(z, t)=10,φ(z, t)=0;系统的状态变量初始值:x1(0)=1.0,x2(0)=-0.8;伸缩因子初始值:ξ(0)=0.7;神经网络的逼近精度估计初始值:
图 3(a)和图 3(b)分别是系统状态变量x1和x2在本文方法和文献[16]控制方法下的时间响应曲线。从图 3(a)可以看出,状态变量x1在本文方法的控制下,能够平滑地收敛到零,而文献[16]方法则在初始阶段产生了轻微的震荡。从图 3(b)可以看出,状态变量x2在本文方法的控制下,仍然能够平滑地收敛到零,而文献[16]方法则产生了剧烈的波动。因此,本文的控制方法优于文献[16]方法。从图 3(c)和图 3(d)可以看出,伸缩因子和逼近精度估计值随时间变化而趋于零。从图 3可以看出,采用本文的控制方法,闭环系统的所有状态变量
本文利用李亚普诺夫稳定性分析原理,设计了一种基于扩展BP神经网络的自适应稳定控制器。该控制器结合了离线训练与在线调节,很好地解决了传统BP神经网络收敛速度慢的缺点,并通过在线调节伸缩因子和逼近精度估计值的更新律,来保证闭环系统的所有状态达到一致终极有界。但是,该控制器在设计过程中,需要假定被控系统的未知函数能分解成连续的齐次函数。因此,其应用范围受到了一定的限制。在今后的研究中,可以考虑是否通过引进Lipschitz条件,来消除这个局限。
[1] | 吴玉香, 王聪. 不确定机器人的自适应神经网络控制与学习[J]. 控制理论与应用, 2013, 30(8): 990-997. ( WU Y X, WANG C. Adaptive neural network control and learning for uncertain robot[J]. Control Theory and Applications, 2013, 30(8): 990-997. ) |
[2] | ZUO Y, WANG Y N, LIU X Z. Neural network robust H∞-tracking control strategy for robot manipulators[J]. Applied Mathematical Modeling, 2010, 34(7): 1823-1838. doi: 10.1016/j.apm.2009.09.026 |
[3] | CHANG Y C, YEN H M. Robust tracking control for a class of uncertain electrically driven robots[J]. IET Control Theory & Applications, 2009, 3(5): 519-532. |
[4] | CHEN B, ZHANG H G, LIN C. Observer-based adaptive neural network control for nonlinear systems in nonstrict-feedback form[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(1): 89-98. doi: 10.1109/TNNLS.2015.2412121 |
[5] | SAHOO A, XU H, JAGANNATHAN S. Adaptive neural network-based event-triggered control of single-input single-output nonlinear discrete-time systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(1): 151-164. doi: 10.1109/TNNLS.2015.2472290 |
[6] | GAO S G, DONG H R, NING B, et al. Neural adaptive control for uncertain MIMO systems with constrained input via intercepted adaptation and single learning parameter approach[J]. Nonlinear Dynamics, 2015, 82(3): 1109-1126. doi: 10.1007/s11071-015-2220-0 |
[7] | 谭永红. 基于BP神经网络的自适应控制[J]. 控制理论与应用, 1994, 11(1): 84-88. ( TAN Y H. Adaptive control based on BP neural network[J]. Control Theory and Applications, 1994, 11(1): 84-88. ) |
[8] | LI X L, LIU D X, LI J Y, et al. Robust adaptive control for nonlinear discrete-time systems by using multiple models[J]. Mathematical Problems in Engineering, 2013(8): 1-10. |
[9] | LU L, LIU F G, SHI W X. Neural-network adaptive controller for nonlinear systems and its application in pneumatic servo systems[J]. Journal of Control Theory and Applications, 2008, 6(1): 97-103. doi: 10.1007/s11768-008-6094-2 |
[10] | 张昭昭, 乔俊飞, 杨刚. 一种功能分区的BP神经网络结构设计方法[J]. 控制与决策, 2011, 26(11): 1659-1664. ( ZHANG Z Z, QIAO J F, YANG G. Structure model of function-dividing design for BP neural network[J]. Control and Decision, 2011, 26(11): 1659-1664. ) |
[11] | 冯立颖. 改进的BP神经网络算法及其应用[J]. 计算机仿真, 2010, 27(12): 172-175. ( FENG L Y. Optimized BP neural networks algorithm and its application[J]. Computer Simulation, 2010, 27(12): 172-175. doi: 10.3969/j.issn.1006-9348.2010.12.043 ) |
[12] | 沈瑛, 张翠芳. 基于BP神经网络的模型参考自适应控制[J]. 西南交通大学学报, 2001, 36(5): 553-556. ( SHEN Y, ZHANG C F. Model reference adaptive control based on BP neural networks[J]. Journal of Southwest Jiaotong University, 2001, 36(5): 553-556. ) |
[13] | ZHANG J R, ZHANG J, LOK T M, et al. A hybrid particle swarm optimization-back-propagation algorithm for feedforward neural network training[J]. Applied Mathematics and Computation, 2007, 185(2): 1026-1037. doi: 10.1016/j.amc.2006.07.025 |
[14] | NASR M B, CHTOUROU M. Neural network control of nonlinear dynamic systems using hybrid algorithm[J]. Applied Soft Computing, 2014, 24: 423-431. doi: 10.1016/j.asoc.2014.07.023 |
[15] | SLOTINE J E, LI W. Applied Nonlinear Control[M]. Upper Saddle River, NJ: Prentice-Hall, 1991 : 251 -253. |
[16] | WANG M, WANG C, LIU X P. Dynamic learning from adaptive neural control with predefined performance for a class of nonlinear systems[J]. Information Sciences, 2014, 279: 874-888. doi: 10.1016/j.ins.2014.04.038 |