第八章 学习控制系统
教学内容 本小节主要介绍目前对人工智能的几种定义,以及人工智能的各种认知观。 教学重点 1. 学习和学习控制的定义 2. 研究学习控制的目的 3. 介绍学习控制的发展历史 4. 介绍几种主要的学习控制方案 5. 分析学习控制的某些问题
教学难点 1. 学习和学习控制系统的定义 2. 几种常见学习控制方案的基本原理
3. 学习控制系统的建模以及收敛性和稳定性分析
教学方法 课堂教学为主,结合人类自身的学习能力,由浅入深地理解学习、学习控制、学习控制系统的基本原理以及分析存在的问题。
教学要求 掌握学习和学习控制系统的定义,理解几种常见学习控制方案的基本结构,了解反复学习控制和重复学习控制的异同点,能够简单地分析学习控制的稳定性和收敛性
8.1 学习控制概述
教学内容 学习的各种定义,学习控制的机理,研究学习控制的目的和学习控制的发展简史。 教学重点 学习的定义、学习控制系统的基本原理及其发展历史。 教学难点 怎样理解学习的各种不同定义并归纳学习控制的机理。
教学方法 课堂讲授为主,通过提问的方式来引导学生理解学习的各种定义。
教学要求 要求重点掌握学习的普遍定义,学习控制能解决哪些问题,能简要地回顾学习控制的发展历史。
8.1.1 什么是学习控制 1.学习(learning)的定义
定义8.1 一个具有生存能力的动物在它的一生中能够被其经受的环境所改造。一个能够繁殖后代的动物至少能够生产出与自身相似的动物(后代),即使这种相似可能随着时间变化。如果这种变化是自我可遗传的,那么,就存在一种能受自然选择影响的物质。如果该变化是以行为形式出现,并假定这种行为是无害的,那么这种变化就会世代相传下去。这种从一代至其下一代的变化形式称为种族学习(racial learning)或系统发育学习(system growth learning),而发生在特定个体上的这种行为变化或行为学习,则称为个体发育学习(individual growth learning)(Wiener, 1965)。 定义8.2 假设
(1) 一个有机体或一部机器处在某类环境中,或者同该环境有联系; (2) 对该环境存在一种“成功的”度量或“自适应”度量;
(3) 这种度量在时间上是比较局部的,也就是说,人们能够用一个比有机体生命期短的时间来测试这种成功的度量。
对于所考虑的环境,如果这种全局的成功度量,能够随时间而改善,那么我们就说,对于所选择的成功度量,该有机体或机器正为适应这类环境而学习(C. Shannon, 1953)。
定义8.3 在同类特征的重复环境中,有机体依靠自己的适应性使自身行为及在竞争反应中的选择不断地改变和增强。这类由个体经验形成的选择变异即谓学习(Osgood,1953)。
定义8.4 学习是一种过程,通过对系统重复输入各种信号,并从外部校正该系统,从而系统对特定的输入作用具有特定的响应。自学习就是不具外来校正的学习,即不具奖罚的学习,它不给出系统响应正确与否的任何附加信息(Tsypkin)。
定义8.5 学习表示系统中的自适应变化,该变化能使系统比上一次更有效地完成同一群体所执行的同样任务(Simon)。
定义8.6 学习在于使我们的智力工作发生有益的变化(Minsky)。
定义8.7 学习系统(learning system)是一个能够学习有关过程的未知信息,并用所学信息作为进一步决策或控制的经验,从而逐步改善系统的性能。
定义8.8 如果一个系统能够学习某一过程或环境的未知特征固有信息,并用所得经验进行估计、分类、决策或控制,使系统的品质得到改善,那么称该系统为学习系统。
定义8.9 学习控制(learning control)能够在系统进行过程中估计未知信息,并据之进行最优控制,以便逐步改进系统性能。
定义8.10 学习控制是一种控制方法,其中的实际经验起到控制参数和算法类似的作用。 定义8.11 如果一个学习系统利用所学得的信息来控制某个具有未知特征的过程,则称该系统为学习控制系统。
提问 你认为哪种学习和学习的定义最好? 2.学习控制的定义的数学描述
定义8.12 在有限时间域[0, T]内,给出受控对象的期望的响应,寻求某个给定输入,使得的响应,在某种意义上获得改善;其中,k为搜索次数,t∈[0, T]。称该搜索过程为学习控制过程。当k→∞时,该学习控制过程是收敛的。
根据上述定义,可把学习控制的机理概括如下:
(1) 寻找并求得动态控制系统输入与输出间的比较简单的关系。 (2) 执行每个由前一步控制过程的学习结果更新了的控制过程。 (3) 改善每个控制过程,使其性能优于前一个过程。
希望通过重复执行这种学习过程和记录全过程的结果,能够稳步改善受控系统的性能。 8.1.2 为什么要研究学习控制
1.自适应控制的应用范围比较有限。当受控对象的运动具有可重复性时,即受控制系统每次进行同样的工作时,就可把学习控制用于该对象。
2.在学习控制过程中,只需要检测实际输出信号和期望信号,而受控对象复杂的动态描述计算和参数估计可被 简化或被省略。所以,对于工业机器人、数控机床和飞机飞行等受控对象的重复运动,学习控制具有广泛的应用前景。
3.学习与掌握学习控制的基本原理和技术能够明显增强控制工程师处理实际控制问题的能力,并提供对含有不确定性现实世界的敏锐理解。
4.对大范围运行的学习控制的研究课题,已引起特别关注,学习控制在智能控制和智能自动化方面有日益显著的地位。
提问 研究学习控制系统能解决哪些问题?
8.1.3 学习控制的发展
50年代: 研究学习机。
60年代: 研究自适应和自学习等方法,研究双重控制和人工神经网络的学习控制理论。 1962年: K S.Narendra等提出了一种基于性能反馈的校正方法。
1964年: FW.Smith提出一种应用模式识别自适应技术的开关式(Bang-Bang)控制方法。 F.B.Smith研究了可训练飞行控制系统; Butz开发了一个开关式学习调节器;
Mendel把可训练阈值逻辑方法作为一种人工智能技术用于控制系统。 1965年: Waltz和Fu提出把启发式方法用于再励学习(或强化学习)控制系统。 1965年: Fu利用Bayes学习估计方法研究基于模式识别的学习控制。 1969年: Wee和Fu提出模糊学习控制系统。 1977-1982年:
Saridis等发展了递阶语义学习方法。 80年代: 研究反复学习控制和重复学习控制。
1978年: 内山首先提出重复学习控制(repetitive learning control)方法,井上和中野等从频域角度发展了重复学习控制。
1984年: 本、川村和宫崎等提出了时域学习控制方法,即反复学习控制(iterative learning control)。
1986年: 古田等基于Hilbert空间和逆时间角度,提出一种多变量的最优反复学习控制,。 1987年: Gu和Loh提出一种多步反复学习控制方法。 80年代初期:
连接主义(connectionist)学习方法为学习控制输入新的动力。
Rwmelhart等提出了能够实现多层神经网络的误差反向传播模型。
Hopfield提出一种具有联想记忆功能的反馈互连网络,后被称为Hopfield网络。 提问 你认为学习控制的关键阶段是什么,试阐述理由
8.2 学习控制方案
教学内容 学习控制系统的原理框。
教学重点 学习控制系统的原理及其控制方案。
教学难点 怎样比较分析四种学习控制方案的适用场合和异同点。 教学方法 结合实例来讲解不同学习控制方案的基本原理和应用场合。
教学要求 掌握学习控制系统原理框架图,理解各种学习控制方案的优缺点。 学习控制的主要方案: ·基于模式识别的学习控制 ·反复学习控制 ·重复学习控制 ·连接主义学习控制 ·基于规则的学习控制
·拟人自学习控制 ·状态学习控制
学习控制具有四个主要功能:搜索、识别、记忆和推理。
学习控制系统也分两类,即在线学习控制系统和离线学习控制系统,分别如图8.1(a)和8.1(b)所示。图中,R 代表参考输入,Y—输出响应,u—控制作用,s—转换开关。当开关接通时,该系统处于离线学习状态。
(a) 在线学习控制系统
(b) 离线学习控制系统 图8.1 学习控制系统原理框图
讨论 离线学习和在线学习控制系统的联系和区别在哪里?简要说明各自的应用场合。
8.2.1 基于模式识别的学习控制
1.基于模式识别的学习控制器
从图8.2可见,该控制器中含有一个模式(特征)识别单元和一个学习(学习与适应)单元。模式识别单元实现对输入信息的提取与处理,提供控制决策和学习适应的依据;学习与适应单元的作用是根据在线信息来增加与修改知识库的内容,改善系统的性能。