图8.2 基于模式识别学习控制系统的一种结构
2.多级学习控制系统
从图8.3可知,该控制系统由三级组成,即组织级、自校正级和执行控制级。组织级由自学习器SL(self-learner)内的控制规则来实现组织作用;自校正级由自校正器ST(self-turner)来调节受控参数;执行控制级则由主控制器MC(main controller)和协调器K构成。MC、ST和SL内的在线特征辨识器CI1—CI3,规则库RB1—RB3以及推理机IE1—IE3是逐级分别设置的。总数据库CDB为三级所共用,以便进行密切联系与快速通讯 。
图8.3 一个多级学习控制系统
提问 多级学习控制系统的主要缺点表现在什么地方?你认为控制系统最好由几层构成?
8.2.2 反复学习控制
1.反复学习控制的定义
定义8.13 反复学习控制是一种学习控制策略,它反复应用先前试验得到的信息(而不是系统参数模型),以获得能够产生期望输出轨迹的控制输入,改善控制质量。
2.反复学习控制的任务
给出系统的当前输入和当前输出,确定下一个期望输入使得系统的实际输出收敛于期望值。因此,在可能存在参数不确性定的情况下,可通过实际运行的输入输出数据获得取好的控制信号。反复控制与最优控制间的区别在于:最优控制根据系统模型计算最优输入,而反复控制则通过先前试验获得最好输入。反复控制与自适应控制的区别为:反复控制的算法是在每次试验后离线实现的,而自适应控制的算法是在线算法,而且需要大量计算。
3.反复学习控制系统的框图
如图8.4所示,代表有界连续期望输出; 代表第k次迭代参考输入; 代表第(k+1)次迭代参考输入; 代表闭环控制系统的第k次实际迭代输出;k=1,2,…,n。
图8.4 反复学习控制原理框图
图8.5 具有反馈控制器和输入饱和器的反复学习控制(据Jang等1995)
思考 反复学习控制是怎样产生的,它的主要功能是什么?
8.2.3 重复学习控制
1.重复学习控制的产生
根据内模原理,对于一个具有单一振荡频率ω的正弦输入(函数),只要把传递函数为
的机构设置在闭环系统内作为内模即可。
如果所设计的机构产生具有固定周期L的周期信号,并且被设置在闭环内作为内模,那么,周期为L的任意周期函数可通过下列步骤产生:给出一个对应于一个周期的任意初始函数,把该函数存储起来,每隔一个周期L就重复取出此周期函数。因此,可把周期为L的周期函数发生器想象为如图8.6所示的时间常数为L的时滞环节。实际上,令时滞环节的初始函数为
,那么
每隔一个周期L就重复一次,而且其目标传递函数r(t)可表示为:
(8.1)
图8.6 周期函数发生器
可以得出推论,只要把此发生器作为内模设置闭环内,就能够构成对周期为L的任意目标信号均无稳态误差的伺服系统。称该函数发生器为重复补偿器,而称设置了重复补偿的控制系统为重复控制系统(repetitive control system)。图8.7给出重复控制系统的基本结构。
图8.7 重复控制系统基本结构
2.重复控制和反复控制的区别
(1) 重复控制构成一个完全闭环系统,进行连续运行。反之,反复控制每次都是独自进行的;每试行一次,系统的初始状态也被复原一次,因而系统的稳定性条件要比重复控制的松驰。 (2) 两种控制的收敛条件是不同的,而且用不同的方法确定。
(3) 对于反复控制,偏差的导数被引入更新了的控制输入表达式。 (4) 反复控制能够处理控制输入为线性地加入的非线性系统。
从上述讨论可知,反复控制具有重复控制所没有的一些优点。不过,反复控制在应用方面也有其局限性〕。重 复控制已用于直流电动机的伺服控制、电压变换器控制以及机器人操作机的轨迹控制等。
提问 举例说明反复学习控制和重复学习控制的异同点?
8.2.4 基于神经网络的学习控制
神控制系统的核心是神经控制器(NNC),而神经控制的关键技术是学习(训练)算法。从学习的观点看,神经控制系统自然地是学习控制系统的一部分。有些人称这种神经控制为连接主义学习控制,另一些人称它为基于神经网络的学习控制。读者可以把第五章(神经控制系统)当做本章的一节来复习
8.3 学习控制的某些问题
教学内容 本节首先讨论PID型学习控制系统的学习建模问题,然后分析基于CMAC的在线与离线学习控制系统的稳定性与收敛性。
教学重点 在机器人学习控制律的基础上介绍机器人系统的实现与仿真,以及在线和离线学习控制系统的稳定性和收敛性分析。
教学难点 在线和离线两种控制系统的稳定性和收敛性分析。
教学方法 本节涉及到很多数学公式,可先给学生简单地回顾一下用到的基本数学知识,重点推导一个简单的 公式,引导学生举一反三,逐步消化理解本节内容。
教学要求 能够就某种简单学习控制系统进行建模及其稳定性和收敛性分析。
8.3.1 学习控制系统的建模
1.机器人系统的学习控制律 设和分别为动态系统第k次控制过程的输入函数和输出函数, 为第(k+1)次控制过程的输入函数, 为期望轨迹的输出矢量,那么可写出PID型学习控制律如下: