(8.2)
式中,
为第k次过程的输出偏差,即:
, 而Ψ、Φ和Γ为n×r常系数矩阵.
(8.3)
当
(8.4)
对于任何类型的学习控制方案,收敛的充分条件是由(机器人)系统的一般状态方程决定的。 2.机器人控制系统的实现与仿真
在机器人系统中,广义动量p无法直接测量。学习控制律可被简化为:
(8.5)
p的时间导数,需要按下列符号公式进行多步计算:
(8.6)
这需要计算几乎整个动态公式,而且非常费时。为保证学习控制过程迅速收敛保持p的计算不变(这是合理的),而力图减轻对式(8.6)的计算工作量。
3.仿真PUMA560得到的结论
已对PUMA560机器人操作机完成了新学习控制方案的仿真研究,而且此仿真过程已经确定。从这个仿真可得出下列结论:
(1) 第一个(次)过程具有大的输出偏差,因为试探输入是随意选择的。不过,第二次试探之后,输出明显地收敛而接近于期望输出。
(2) 对于每个过程,初始输出必须与期望输出一样,即对于如果不这样做,那么该过程将收敛于与期望轨迹平行且保持恒定距离的轨迹。
8.3.2 学习控制的稳定性和收敛性分析
1.离线学习控制系统的稳定性和收敛性分析
图8.8给出一个CMAC离线学习控制系统的结构。该装置的控制输入u由两个分量组成:
(8.7)
图8.8 CMAC离线学习控制系统
定理8.1 存在一个反馈控制:
使得系统的状态误差边界为:
式中,
。
定理8.2 设
和
为有界函数:
(8.10)
且定理8.1中的反馈增益满足下列不等式:
(8.11)
规定:
(8.8)
(8.9)
(8.12)
式中,使该系统收敛:
(8.13)
(8.14)
2.在线学习控制系统的稳定性与收敛性分析
自适应过程的定义
定义8.14 控制系统在每个采样期内实时地训练神经网络的过程,称为自适应过程。 学习过程的定义
定义8.15 控制系统在积累了一系列样本之后离线地训练神经网络的过程,称为学习过程。
图8.9表示一个基于CMAC的在线学习控制系统的框图,该系统具有从系统输出的反馈作用。
图8.9 基于CMAC的在线学习控制系统
CMAC中神经网络的收敛性
定理8.3 基于CMAC神经网络的在线学习控制用于一类仿射非线性系统
(8.15)
(8.16)
如果系统满足下列条件: (1) 可逆;
(2) 理想状态和是严格混合和平稳随机过程; (3) PD控制保证系统全局渐进稳定; (4) 正定。
那么,CMAC神经网络算法收敛,即:
(8.17)
8.4 小 结
根据学习和学习控制的定义,把学习控制机理归纳为:
(1) 寻求并发现动态控制系统输入输出间比较简单的关系; (2) 执行由上一次控制过程的学习结果更新过的每一控制过; (3) 改善每个过程的性能,使其优于前个过程。重复这一学习过程,并记录全过程积累的控制结果必将稳步地改善学习控制系统的性能。
存在许多种学习控制方案,诸如基于模式识别的学习控制、反复学习控制、重复学习控制以及连接主义学习控制等。本章介绍了上述四种学习控制系统的原理与结构。
第三节的讨论重点放在学习控制的一些重要研究问题上,例如,学习控制系统的建模,以及离线和在线系统学习控制的稳定性和收敛性分析等