计算机应用   2017, Vol. 37 Issue (6): 1670-1673  DOI: 10.11772/j.issn.1001-9081.2017.06.1670
0

引用本文 

陈浩广, 王银河. 基于扩展BP神经网络的一类非线性系统自适应控制设计[J]. 计算机应用, 2017, 37(6): 1670-1673.DOI: 10.11772/j.issn.1001-9081.2017.06.1670.
CHEN Haoguang, WANG Yinhe. Adaptive control design for a class of nonlinear systems based on extended BP neural network[J]. Journal of Computer Applications, 2017, 37(6): 1670-1673. DOI: 10.11772/j.issn.1001-9081.2017.06.1670.

基金项目

国家自然科学基金资助项目(61273219,61673120);教育部高等学校博士学科点专项科研基金资助项目(20134420110003)

通信作者

陈浩广, haoguang_chen@sina.cn

作者简介

陈浩广(1986-), 男, 广东汕头人, 博士研究生, 主要研究方向:神经网络、模糊控制;
王银河(1962-), 男, 内蒙古包头人, 教授, 博士, 主要研究方向:复杂网络、非线性控制

文章历史

收稿日期:2016-12-05
修回日期:2017-03-02
基于扩展BP神经网络的一类非线性系统自适应控制设计
陈浩广, 王银河    
广东工业大学 自动化学院, 广州 510006
摘要: 针对单输入单输出非线性系统的不确定性问题,提出了一种新型的基于扩展反向传播(BP)神经网络的自适应控制方法。首先,采用离线数据来训练BP神经网络的权值向量;然后,通过在线调节伸缩因子和逼近精度估计值的更新律,从而来达到控制整个系统的目的。在控制器的设计过程中,利用李亚普诺夫稳定性分析原理,保证了闭环系统的所有状态一致终极有界(UUB)。相比传统的BP神经网络自适应控制,所提方法能有效地减少在线调节的参数数目、减轻计算负担。仿真结果表明,该方法能够使闭环系统的所有状态都趋于零,即系统达到稳定状态。
关键词: 非线性系统    自适应控制    反向传播神经网络    一致终极有界    稳定性    
Adaptive control design for a class of nonlinear systems based on extended BP neural network
CHEN Haoguang, WANG Yinhe     
School of Automation, Guangdong University of Technology, Guangzhou Guangdong 510006, China
Abstract: Aiming at the uncertainty of Single-Input-Single-Output (SISO) nonlinear systems, a novel adaptive control design based on extended Back Propagation (BP) neural network was proposed. Firstly, the weight vectors of BP neural network were trained via the offline data. Then, the scaling factor and estimation parameter of approximate accuracy were adjusted online to control the whole system by update law. In the design process of controller, with the Lyapunov stability analysis, the adaptive control scheme was proposed to guarantee that all the states of the closed-loop system were Uniformly Ultimately Bounded (UUB). Compared with the traditional adaptive control method of BP neural network, the proposed method can effectively decrease the parameter number of online adjustment and reduce the burden of computation. The simulation results show that the proposed method can make all the states of the closed-loop system tend to be zero, which means the system reaches the steady state.
Key words: nonlinear system    adaptive control    Back Propagation (BP) neural network    uniformly ultimately bounded    stability    
0 引言

近年来,神经网络自适应控制已成为控制理论与工程应用领域中的一个研究热点,其研究成果为解决非线性不确定系统控制设计问题提供了重要方法[1-6]。这些成果的共同特点是:基于神经网络的万能逼近性能,利用神经网络逼近非线性系统中的未知不确定函数,然后采用自适应控制技术设计系统的控制器。在控制器的设计过程中,反向传播(Back Propagation, BP)神经网络因其强大的逼近性能、并行处理能力和强的鲁棒特性而被广泛采用。如文献[7]利用BP神经网络对被控对象进行在线辨识和控制,并结合常规的比例积分微分(Proportion Integration Differentiation, PID)控制器,提出了一种基于BP神经网络的自适应PID控制器。文献[8]采用BP神经网络来逼近非线性离散系统中的未知动态项,通过结合一个死区算法来更新网络中的权值向量,保证了整个控制系统的稳定性和收敛性。文献[9]针对一类带有未知动态项或者噪声干扰项的仿射非线性系统,利用BP神经网络的万能逼近性能,提出了一种新型的控制律,并应用到气动伺服系统的位置跟踪控制,取得了良好的控制效果。虽然上述文献在自适应控制方面取得了不少突破,但它们仍旧没办法解决BP神经网络收敛速度慢的问题[10],特别是当神经元的数目较多时,在线调节的自适应参数数目将大量增加,这样容易导致学习时间过长,使得控制效果不佳。另外,BP神经网络是一种局部寻优方法,权值是沿着局部改善的方向逐渐调整的。当它要解决一个全局的复杂非线性自适应控制问题时,很容易陷入局部极小值[11],从而导致控制的失败。

为解决以上问题,不少学者针对BP神经网络自适应控制作了很多研究。文献[12]利用BP神经网络的误差反向传播机制,解决了控制器中的权值修正问题,使得该控制器具有良好的控制效果。文献[13]结合粒子群优化算法和BP神经网络的万能逼近特性,提出了一种新型的自适应控制方法。该方法不仅可以提高全局搜索能力,而且能够加快收敛。文献[14]提出了一种混合训练算法,其中输入层和隐层的权值训练采用的是自组织学习算法,隐层和输出层的权值训练采用的是梯度下降法,这种混合算法能够起到减少网络训练时间的作用。尽管以上方法在一定程度上减少自适应控制过程中参数的在线调节时间,但目前仍旧没有给出一种统一的、有规律可循的方法来解决这个问题。因此,本文提出了一种具有普遍性,能够适合任何一种神经网络类型(本文以BP神经网络为例)的解决方法。该方法在神经网络的输入输出端加载伸缩器和饱和器,先利用离线数据来训练神经网络的权值向量,再通过调节在线的自适应参数,最后实现了控制整个系统的目的。伸缩器和饱和器的加入,使得该方法在控制器的设计过程中,只需要调节伸缩因子和神经网络的逼近精度估计值,这样可以有效地减少在线的调节参数、减轻计算负担,并且能够保证整个闭环系统的所有状态一致终极有界。

1 预备知识与问题描述

定义1 一个RnRn的映射ϕ:$\boldsymbol{z} \mapsto \xi \boldsymbol{z} $称为伸缩器,表示为ϕ(z)=ξz,其中:z=(z1, z2, …, zn)TRnξ为实数,称为伸缩因子。

定义2 一个RnRn的映射sat:$ \boldsymbol{z} \mapsto sat\left( \boldsymbol{z} \right)$,称为饱和器,其中z=(z1, z2, …, zn)Tsat(z)=(sat(z1), sat(z2), …, sat(zn))T,这里:

$ sat({z_i}) = \left\{ \begin{gathered} -{\boldsymbol{\varpi} _i}, \;\;\;\;\;\;\;\;{z_i} <-{\boldsymbol{\varpi} _i} \hfill \\ {z_i}, \;\;\;\;\;\;\;\;\;\;\;\left| {{z_i}} \right| \leqslant {\boldsymbol{\varpi} _i} \hfill \\ {\boldsymbol{\varpi} _i}, \;\;\;\;\;\;\;\;\;\;{z_i} > {\boldsymbol{\varpi} _i} \hfill \\ \end{gathered} \right. $

式中:${\boldsymbol{\varpi} _i} $(i=1, 2, …, n)为正常数,记$\boldsymbol{\varpi} = \mathop {\min }\limits_{1 \leqslant i \leqslant n} \left\{ {{\boldsymbol{\varpi} _i}} \right\} $为饱和器sat(z)的最小饱和度。

定义3 在一个BP神经网络的输入端加载一个伸缩器和一个饱和器,并在其输出端加载一个伸缩器,结构如图 1所示,称之为k阶扩展的BP神经网络系统(k-order extended BP neural network system),记为ENS(N, k)。

图 1 扩展的BP神经网络结构 Figure 1 Structure of the extended BP neural network

图 1中,扩展的BP神经网络ENS(N, k)的输出为:

$ \bar y = {\xi ^k} \cdot {y_o} = {\xi ^k} \cdot N\left( {sat\left( {z/\xi } \right)} \right) $ (1)

当‖z/ξ‖≤ $\boldsymbol{\varpi} $时,有:

$ \bar y = {\xi ^k} \cdot N\left( {z/\xi } \right) $ (2)

BP神经网络的输出为:

$ {y_o} = \sum\limits_\boldsymbol{j} {{w_{jo}} \cdot {{z'}_\boldsymbol{j}}} = \sum\limits_\boldsymbol{j} {{w_{jo}}} \cdot f({z_j}) = \sum\limits_j {{w_{jo}}} \cdot \frac{1}{{1 + {{\text{e}}^{-{z_j}}}}} $ (3)

其中${z_j} = \sum\limits_i {{w_{ij}} \cdot sat\left( {{z_i}/\xi } \right)} $为隐层神经元的输入。

引理1  考虑在Rn上连续的k次齐次函数γ(z),也即对于任意正实数λ满足γ(λz)=λkγ(z)。如果存在一个BP神经网络N和正实数M,在紧致域z∈{z|‖z‖≤ $ \boldsymbol{\varpi} $}上满足:

$ \mathop {\sup }\limits_{\left\| z \right\| \leqslant \varpi } \left| {\gamma \left( z \right)-N\left( z \right)} \right| \leqslant M $ (4)

那么扩展的BP神经网络ENS(N, k)的输出满足:

$ \mathop {\sup }\limits_{\left\| z \right\| \leqslant \left| \gamma \right|\varpi } \left| {\gamma (z)-{\xi ^k}N(z/\xi )} \right| \leqslant {\left| \xi \right|^k}\boldsymbol{M} $ (5)

证明 由齐次函数的定义有γ(z)-ξkγ(z/ξ)=0,因此当z∈{z|‖z‖≤|ξ|$\boldsymbol{\varpi} $}时,以下不等式成立:

$ \begin{gathered} \left| {\gamma (z)- {\xi ^k}N(z/\xi )} \right| = \left| {\gamma (z)- {\xi ^k}\gamma (z/\xi ) + } \right. \hfill \\ \left. {{\xi ^k}[\gamma (z/\xi )-N(z/\xi )]} \right| = \hfill \\ {\left| \xi \right|^k}\left| {\gamma (z/\xi ) -N(z/\xi )} \right| \leqslant {\left| \xi \right|^k}\boldsymbol{M} \hfill \\ \end{gathered} $ (6)
2 系统描述与假定

考虑如下非线性系统:

$ \dot z = \boldsymbol{Az} + \boldsymbol{B}[h(z, t) + (r + \Delta r)u] $ (7)

其中:u为控制输入; 系统状态矢量z=(x, $\dot x $, …, x(n-1))T$\tilde U $$\subseteq $Rn$\tilde U $是有界闭集; h(z, t)是未知连续函数; r是未知的正常数,Δrr(z, t)是未知的连续函数; $\boldsymbol{A} = \left( \begin{gathered} \boldsymbol{O}\;\;\;{\boldsymbol{I}_{n-1}} \hfill \\ \boldsymbol{0}\;\;\;\;{\boldsymbol{O}^{\text{T}}} \hfill \\ \end{gathered} \right), B = {\left( {{\boldsymbol{O}^{\text{T}}}\;\;\;1} \right)^{\text{T}}} $,这里O表示元素全为0的n-1阶列矢量,In-1表示n-1阶单位矩阵。

假定1  矩阵(A, B)是可控的,因此存在1×n阶矩阵K使A+BK是Hurwitz矩阵,并且对于任意给定的正定矩阵Q,下列Lyapunov方程有唯一正定矩阵解P

$ {(\boldsymbol{A} + \boldsymbol{BK})^{\rm T}}\boldsymbol{P} + \boldsymbol{P}(\boldsymbol{A} + \boldsymbol{BK}) =-\boldsymbol{Q} $ (8)

假定2 1) 在有界闭集$\tilde U $上,函数$h\left( {z, t} \right) = \sum\limits_{i = 1}^s {{h_{{k_i}}}\left( z \right)} + v\left( {z, t} \right) $hki(z)是次数已知的ki次齐次连续函数;|v(z, t)|≤ϕ(z, t),v(z, t)为未知连续函数,ϕ(z, t)是已知的连续函数。2) 有已知的正常数rminrmax使得0 < rminrrmax;有已知的非负连续函数φ(z, t)使得|Δr|≤φ(z, t) < rmin

假定3  对于系统式(7),当饱和器满足条件{z|‖z‖≤$ \boldsymbol{\varpi} $}$\subseteq \tilde U $时,在假定2的前提下,存在s个神经网络Ni和未知正常数εi满足:

$ \mathop {\sup }\limits_{z \in \tilde U} \left| {{\Delta _i}(z)-{N_i}(z)} \right| \leqslant {\varepsilon _i}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} i = 0, 1, \cdots, s $ (9)

其中:${\Delta _i}\left( z \right) = \left\{ \begin{gathered} -\left( {{r_{\max }}/r} \right) \cdot \boldsymbol{Kz}, \;\;i = 0 \hfill \\ \left( {{r_{\max }}/r} \right) \cdot {h_{{k_i}}}\left( \boldsymbol{z} \right), \;i = 1, 2, ..., s \hfill \\ \end{gathered} \right.$,矩阵K是能保证A+BK为Hurwitz稳定的矩阵。

由引理1和假定3,可以得到下面不等式:

$ \begin{gathered} \mathop {\sup }\limits_{\left\| z \right\| \leqslant \left| \gamma \right|\varpi } \left| {{\Delta _j}(z)-{\xi ^{{k_j}}}{N_j}(z/\xi )} \right| \leqslant {\left| \xi \right|^{{k_j}}}{\varepsilon _j}{\kern 1pt} ; \hfill \\ \;\;\;j = 0, 1, \cdots, s \hfill \\ \end{gathered} $ (10)
3 神经网络自适应控制设计

对于非线性系统式(7),利用扩展的BP神经网络来设计相应的自适应正定控制器。设εj是神经网络Nj与未知函数Δj的逼近精度,$\hat \varepsilon_j $εj的估计值,${\tilde \varepsilon _j} = {\hat \varepsilon _j}-{\varepsilon _j} $是估计误差。考虑由下列各式组成的闭环系统:

$ \dot z = \boldsymbol{A}z + \boldsymbol{B}\left[{h\left( {z, t} \right) + \left( {r + \Delta r} \right)u} \right] $ (11)
$ \dot \xi = \rho (z, \xi, \hat \varepsilon ) $ (12)
$ \dot {\hat \varepsilon } = \pi \left( {z,\xi ,\hat \varepsilon } \right) $ (13)
$ u = u(z, \xi, \hat \varepsilon ) $ (14)

其中:Z=(zT, ξ, ${\hat \varepsilon ^{\text{T}}} $)T是闭环系统(式(11)~(14))的状态变量;ρ(*)、π(*)分别是伸缩因子和逼近精度估计值的更新律;$u = u(z, \xi, \hat \varepsilon ) $是系统的控制输入。它们是根据以下的控制目标而设计的。

控制目标:设计相应的控制器$u = u(z, \xi, \hat \varepsilon ) $、伸缩因子更新律ρ(*)、逼近精度估计值更新律π(*),使得系统状态变量Z=(zT, ξ, ${\hat \varepsilon ^{\text{T}}} $)T达到一致终极有界。下面从两种情况来进行分析。

情况a  当$\left\| z \right\| > \left| \xi \right|\boldsymbol{\varpi} $时,利用神经网络Nj逼近连续齐次函数Δj,同时采用如下的控制输入和更新律:

$ u = 0 $ (15)
$ \begin{gathered} \dot \xi = \frac{1}{{2\xi {\varpi ^2}}}\{ \lambda + 2\sqrt {n- 1} {\left\| z \right\|^2} + \hfill \\ 2\left\| z \right\| \cdot [\sum\limits_{i = 1}^s {{{\hat \varepsilon }_i}} + \sum\limits_{i = 1}^s {\left| {{N_i}(z)} \right|} + \phi (z, t)]\} \hfill \\ \end{gathered} $ (16)
$ {\dot {\hat \varepsilon} _j} = \left\{ \begin{gathered} 0,\;\;\;\;\;\;\;\;\;\;\;\;j = 0 \hfill \\ 2\beta \left\| z \right\|,\;\;\;\;\;j = 1,2,...s \hfill \\ \end{gathered} \right. $ (17)

其中:λβ是可调的正常数。

引理2  对于闭环系统(式(11)~(14)),如果假定1~3和$\left\| z \right\| > \left| \xi \right|\boldsymbol{\varpi} $成立,那么在控制方案(式(15)~(17))的作用下,闭环系统(式(11)~(14))的所有状态变量Z=(zT, ξ, ${\hat \varepsilon ^{\text{T}}} $)T能在有限的时间内到达区域D={Z|‖z‖≤|ξ|$\boldsymbol{\varpi} $}。

证明 记$s = s(z, \xi, \tilde \varepsilon ) = {\left\| z \right\|^2}-{\xi ^2}{\varpi ^2} + 0.5{\beta ^{-1}}{\tilde \varepsilon ^{\rm T}}\tilde \varepsilon $。因为$\left\| z \right\| > \left| \xi \right|\varpi $,可得s>0。考虑关于s的正定函数V=s2/2,由更新律式(16)~(17),可得:

$ \dot V = s\left[ {{{\dot z}^{\text{T}}}z + {z^{\text{T}}}\dot z - 2\xi \dot \xi {\varpi ^2} + {\beta ^{ - 1}}{{\tilde \varepsilon }^{\text{T}}}\dot {\tilde \varepsilon }} \right] \leqslant - \lambda s $ (18)

根据文献[15]和式(18),可以知道闭环系统的状态能在有限的时间内到达曲面s=0,即{Z|s=0}$\subseteq $D

引理2得证。

情况b当$\left\| z \right\| \leqslant \left| \xi \right|\varpi $时,设计控制器:

$ u = {u_1} + {u_2} $ (19)
$ {u_1} =-\frac{1}{{{r_{\max }}}}\sum\limits_{j = 0}^s {{\xi ^{{k_j}}}{N_j}(z/\xi )} $ (20)
$ {u_2} =-\frac{{\phi (z, t) + \varphi (z, t)\left| {{u_1}} \right|}}{{{r_{\min }}-\varphi (z, t)}}{\text{sign}}({\boldsymbol{B}^{\rm T}}\boldsymbol{Pz}) $ (21)

伸缩因子和逼近精度估计值的更新律分别是:

$ \begin{gathered} \dot \xi =-\frac{{{\lambda _{\min }}(\boldsymbol{Q})}}{{2{\lambda _{\max }}(\boldsymbol{P})}}\xi-2\chi \varpi \left\| {\boldsymbol{PB}} \right\|(\sum\limits_{j = 0}^s {{{\left| \xi \right|}^{{k_j}}}{{\hat \varepsilon }_j}} )\overline {{\text{sign}}} (\xi )-\hfill \\ {\xi ^{ - 1}}\frac{{{\lambda _{\min }}(\boldsymbol{Q})}}{{2\delta {\lambda _{\max }}(\boldsymbol{P})}}\sum\limits_{j = 0}^s {\hat \varepsilon _j^2} \hfill \\ \end{gathered} $ (22)
$ {\dot {\hat \varepsilon} _j} =-\frac{{{\lambda _{\min }}(\boldsymbol{Q})}}{{{\lambda _{\max }}(\boldsymbol{P})}}{\hat \varepsilon _j} + 2\delta \varpi \xi \left\| {\boldsymbol{PB}} \right\| \cdot {\left| \xi \right|^{{k_j}}}\overline {{\text{sign}}} (\xi ) $ (23)

其中:χδ为可调的正常数;λmin是矩阵Q的最小特征值;λmax是矩阵P的最大特征值;$\overline {{\text{sign}}} (\xi ) = \left\{ \begin{gathered} 1{\kern 1pt} {\kern 1pt} {\kern 1pt}, {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \xi > 0{\kern 1pt} \hfill \\ -1{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt}, {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \xi < 0 \hfill \\ \end{gathered} \right. $

引理3  对于闭环系统(式(11)~(14)),如果假定1~3和$\left\| z \right\| \leqslant \left| \xi \right|\varpi $成立,那么在控制方案(式(19)~(23))的作用下,闭环系统的状态变量$ \boldsymbol{Z} = {({z^{\rm T}}, \xi, {\hat \varepsilon ^{\rm T}})^{\rm T}}$达到一致终极有界。

证明 考虑正定函数$V(t) = {z^{\rm T}}\boldsymbol{Pz} + \frac{1}{{2\chi }}{\xi ^2} + \frac{1}{{2\delta }}\sum\limits_{j = 0}^s {\tilde \varepsilon _j^2} $, 对其求导得到:

$ \begin{gathered} \dot V(t) =- {z^{\rm T}}\boldsymbol{Qz} + 2\frac{r}{{{r_{\max }}}}{z^{\rm T}}\boldsymbol{PB}\{ \sum\limits_{j = 0}^s {[{\Delta _j}(z)}-{\xi ^{{k_j}}}{N_j}(z/\xi )]\} + \hfill \\ 2{z^{\rm T}}\boldsymbol{PB}[v(z, t) + \Delta r({u_1} + {u_2}) + r{u_2}] + {\chi ^{ -1}}\xi \dot \xi + \hfill \\ {\delta ^{ -1}}\sum\limits_{j = 0}^s {{{\tilde \varepsilon }_j}} {{\dot {\tilde \varepsilon} }_j} \hfill \\ \end{gathered} $ (24)

${\tilde \varepsilon _j}{\hat \varepsilon _j} = (\hat \varepsilon _j^2 + \tilde \varepsilon _j^2-\varepsilon _j^2)/2 $,再结合更新律(式(22)~(23)),可以得到:

$ \dot V(t) \leqslant-\frac{{{\lambda _{\min }}(\boldsymbol{Q})}}{{{\lambda _{\max }}(\boldsymbol{P})}}V(t) + \frac{{{\lambda _{\min }}(\boldsymbol{Q})}}{{2\delta {\lambda _{\max }}(\boldsymbol{P})}}\sum\limits_{j = 0}^s {\varepsilon _j^2} $ (25)

由式(25) 得到不等式:

$ V(t) \leqslant {e^{-\frac{{{\lambda _{\min }}(\boldsymbol{Q})}}{{{\lambda _{\max }}(\boldsymbol{P})}}t}}V(0) + \frac{1}{{2\delta }}\sum\limits_{j = 0}^s {\varepsilon _j^2} $ (26)

由式(26) 知,对于任意给定实数σ>0,考虑关于点$z = 0, {\kern 1pt} {\kern 1pt} {\kern 1pt} \xi = 0, {\kern 1pt} {\kern 1pt} {\kern 1pt} {\tilde \varepsilon _j} = 0 $的邻域$H = \{ \left. {\left( {{z^{\rm T}}, \xi, \tilde \varepsilon } \right)} \right|V \leqslant \sigma + \frac{1}{{2\delta }}\sum\limits_{j = 0}^s {\varepsilon _j^2} \} $容易得到,当时间$t \geqslant-\frac{{{\lambda _{\max }}(\boldsymbol{P})}}{{{\lambda _{\min }}(\boldsymbol{Q})}}\ln \frac{\sigma }{{V(0)}} $,有:

$ \left\| z \right\| \leqslant \sqrt {(\sigma + 0.5{\delta ^{-1}}\sum\limits_{j = 0}^s {\varepsilon _j^2} )/{\lambda _{\min }}(\boldsymbol{P})} $ (27)
$ \left| \xi \right| \leqslant \sqrt {2\lambda (\sigma + 0.5{\delta ^{-1}}\sum\limits_{j = 0}^s {\varepsilon _j^2)} } $ (28)
$ \sum\limits_{j = 0}^s {\tilde \varepsilon _j^2} \leqslant \sqrt {2\delta (\sigma + 0.5{\delta ^{-1}}\sum\limits_{j = 0}^s {\varepsilon _j^2)} } $ (29)

引理3得证。

结合以上两种情况,可以得出下面定理。

定理1  对于闭环系统(式(11)~(14)),如果假定1~3成立,那么在控制方案(式(15)~(17))和(式(19)~(23))的作用下,闭环系统的所有状态变量$\boldsymbol{Z} = {({z^{\rm T}}, \xi, {\hat \varepsilon ^{\rm T}})^{\rm T}} $达到一致终极有界(Uniformly Ultimately Bounded, UUB)。

整个神经网络自适应控制的设计流程如图 2所示。

图 2 神经网络自适应控制设计流程 Figure 2 Flow chart of neural network adaptive control design
4 算例仿真和分析

考虑如下二阶系统:

$ {\dot x_2} = h(z, t) + u(t) = \sum\limits_{k = 1}^2 {{h_k}} (z) + u(t) $ (30)

其中:系统的状态变量z=(x1, x2)T${\dot x_1} $=x2h1(z)=x12+x1x2h2(z)=(5x12+0.2x22)/(x1+x2)。

根据假定2~3,需要离线数据训练三个BP神经网络N0N1N2来逼近未知的连续齐次函数Δ0=-Kz、Δ1=h1(z)、Δ2=h2(z),其中K=(-3, -4)。在训练过程中,采用的算法是梯度下降法。神经网络的层数是3层,隐层的神经元个数为6,网络结构是:1—6—1。训练完成后,将可以得到相应的网络权值,并保持这些权值不变。

接着进行在线自适应调节,取控制参数:v(z, t)=0,δ=0.5,χ=0.1,λ=0.5,β=0.001,ϕ(z, t)=10,φ(z, t)=0;系统的状态变量初始值:x1(0)=1.0,x2(0)=-0.8;伸缩因子初始值:ξ(0)=0.7;神经网络的逼近精度估计初始值:${\hat \varepsilon _0}(0) = 0.2, {\hat \varepsilon _1}(0) = 0.5, {\hat \varepsilon _2}(0) = 0.8 $。为了更好地说明本文方法的有效性,在仿真过程中,针对同一类型的被控对象(单输入单输出系统),把本文所提的扩展BP神经网络控制器与文献[16]提出的径向基函数(Radial Basis Function, RBF)神经网络控制器作了对比。相应的仿真结果如图 3所示。

图 3 不同参数的时间相应曲线 Figure 3 Time response curves of difference parameters

图 3(a)图 3(b)分别是系统状态变量x1x2在本文方法和文献[16]控制方法下的时间响应曲线。从图 3(a)可以看出,状态变量x1在本文方法的控制下,能够平滑地收敛到零,而文献[16]方法则在初始阶段产生了轻微的震荡。从图 3(b)可以看出,状态变量x2在本文方法的控制下,仍然能够平滑地收敛到零,而文献[16]方法则产生了剧烈的波动。因此,本文的控制方法优于文献[16]方法。从图 3(c)图 3(d)可以看出,伸缩因子和逼近精度估计值随时间变化而趋于零。从图 3可以看出,采用本文的控制方法,闭环系统的所有状态变量$\boldsymbol{Z} = {({z^{\rm T}}, \xi, {\hat \varepsilon ^{\rm T}})^{\rm T}} $最后都趋于零,也即达到一致终极有界,充分说明了本文方法的有效性。

5 结语

本文利用李亚普诺夫稳定性分析原理,设计了一种基于扩展BP神经网络的自适应稳定控制器。该控制器结合了离线训练与在线调节,很好地解决了传统BP神经网络收敛速度慢的缺点,并通过在线调节伸缩因子和逼近精度估计值的更新律,来保证闭环系统的所有状态达到一致终极有界。但是,该控制器在设计过程中,需要假定被控系统的未知函数能分解成连续的齐次函数。因此,其应用范围受到了一定的限制。在今后的研究中,可以考虑是否通过引进Lipschitz条件,来消除这个局限。

参考文献
[1] 吴玉香, 王聪. 不确定机器人的自适应神经网络控制与学习[J]. 控制理论与应用, 2013, 30(8): 990-997. ( WU Y X, WANG C. Adaptive neural network control and learning for uncertain robot[J]. Control Theory and Applications, 2013, 30(8): 990-997. )
[2] ZUO Y, WANG Y N, LIU X Z. Neural network robust H∞-tracking control strategy for robot manipulators[J]. Applied Mathematical Modeling, 2010, 34(7): 1823-1838. doi: 10.1016/j.apm.2009.09.026
[3] CHANG Y C, YEN H M. Robust tracking control for a class of uncertain electrically driven robots[J]. IET Control Theory & Applications, 2009, 3(5): 519-532.
[4] CHEN B, ZHANG H G, LIN C. Observer-based adaptive neural network control for nonlinear systems in nonstrict-feedback form[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(1): 89-98. doi: 10.1109/TNNLS.2015.2412121
[5] SAHOO A, XU H, JAGANNATHAN S. Adaptive neural network-based event-triggered control of single-input single-output nonlinear discrete-time systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(1): 151-164. doi: 10.1109/TNNLS.2015.2472290
[6] GAO S G, DONG H R, NING B, et al. Neural adaptive control for uncertain MIMO systems with constrained input via intercepted adaptation and single learning parameter approach[J]. Nonlinear Dynamics, 2015, 82(3): 1109-1126. doi: 10.1007/s11071-015-2220-0
[7] 谭永红. 基于BP神经网络的自适应控制[J]. 控制理论与应用, 1994, 11(1): 84-88. ( TAN Y H. Adaptive control based on BP neural network[J]. Control Theory and Applications, 1994, 11(1): 84-88. )
[8] LI X L, LIU D X, LI J Y, et al. Robust adaptive control for nonlinear discrete-time systems by using multiple models[J]. Mathematical Problems in Engineering, 2013(8): 1-10.
[9] LU L, LIU F G, SHI W X. Neural-network adaptive controller for nonlinear systems and its application in pneumatic servo systems[J]. Journal of Control Theory and Applications, 2008, 6(1): 97-103. doi: 10.1007/s11768-008-6094-2
[10] 张昭昭, 乔俊飞, 杨刚. 一种功能分区的BP神经网络结构设计方法[J]. 控制与决策, 2011, 26(11): 1659-1664. ( ZHANG Z Z, QIAO J F, YANG G. Structure model of function-dividing design for BP neural network[J]. Control and Decision, 2011, 26(11): 1659-1664. )
[11] 冯立颖. 改进的BP神经网络算法及其应用[J]. 计算机仿真, 2010, 27(12): 172-175. ( FENG L Y. Optimized BP neural networks algorithm and its application[J]. Computer Simulation, 2010, 27(12): 172-175. doi: 10.3969/j.issn.1006-9348.2010.12.043 )
[12] 沈瑛, 张翠芳. 基于BP神经网络的模型参考自适应控制[J]. 西南交通大学学报, 2001, 36(5): 553-556. ( SHEN Y, ZHANG C F. Model reference adaptive control based on BP neural networks[J]. Journal of Southwest Jiaotong University, 2001, 36(5): 553-556. )
[13] ZHANG J R, ZHANG J, LOK T M, et al. A hybrid particle swarm optimization-back-propagation algorithm for feedforward neural network training[J]. Applied Mathematics and Computation, 2007, 185(2): 1026-1037. doi: 10.1016/j.amc.2006.07.025
[14] NASR M B, CHTOUROU M. Neural network control of nonlinear dynamic systems using hybrid algorithm[J]. Applied Soft Computing, 2014, 24: 423-431. doi: 10.1016/j.asoc.2014.07.023
[15] SLOTINE J E, LI W. Applied Nonlinear Control[M]. Upper Saddle River, NJ: Prentice-Hall, 1991 : 251 -253.
[16] WANG M, WANG C, LIU X P. Dynamic learning from adaptive neural control with predefined performance for a class of nonlinear systems[J]. Information Sciences, 2014, 279: 874-888. doi: 10.1016/j.ins.2014.04.038