神经网络在数学建模竞赛中的应用 下载本文

第1章 引言

1.1 人工神经网络的介绍

人工神经网络(Artificial Neural Networks, ANN),亦称为神经网络(Neural Networks,NN),是由大量的处理单元(神经元Neurons)广泛互联而成的网络,是对大脑的抽象、简化和模拟,反映人脑的基本特性.人工神经网络的研究是从人脑的生理结构出发来研究人的智能行为,模拟人脑信息处理的功能.它是根植于神经科学、数学、物理学、计算机科学及工程等科学的一种技术.

人工神经网络是由简单的处理单元所组成的大量并行分布的处理机,这种处理机具有储存和应用经念知识的自然特性,它与人脑的相似之处概括两个方面:一是通过学习过程利用神经网络从外部环境中获取知识;二是内部神经元(突触权值)用来存储获取的知识信息.

人工神经网络具有四个基本特征: (1)非线性 非线性关系是自然界的普遍特性.大脑的智慧就是一种非线性现象.人工神经元处于激活或抑制二种不同的状态,这种行为在数学上表现为一种非线性关系.具有阈值的神经元构成的网络具有更好的性能,可以提高容错性和存储容量.

(2)非局限性 一个神经网络通常由多个神经元广泛连接而成.一个系统的整体行为不仅取决于单个神经元的特征,而且可能主要由单元之间的相互作用、相互连接所决定.通过单元之间的大量连接模拟大脑的非局限性.联想记忆是非局限性的典型例子.

(3)非常定性 人工神经网络具有自适应、自组织、自学习能力.神经网络不但处理的信息可以有各种变化,而且在处理信息的同时,非线性动力系统本身也在不断变化.经常采用迭代过程描写动力系统的演化过程.

(4)非凸性 一个系统的演化方向,在一定条件下将取决于某个特定的状态函数.例如能量函数,它的极值相应于系统比较稳定的状态.非凸性是指这种函数有多个极值,故系统具有多个较稳定的平衡态,这将导致系统演化的多样性.

人工神经网络是近年来的热点研究领域,涉及到电子科学技术、信息与通讯工程、计算机科学与技术、电器工程、控制科学与技术等诸多学科,其应用领域包括:建模、时间序列分析、模式识别和控制等,并在不断的拓展.本文正是居于数学建模的神经网路应用.

1.2 人工神经网络发展历史

20世纪40年代中期期,在科学发展史上出现了模拟电子计算机和数字电子计算机两

种新的计算工具和一种描述神经网络工作的数学模型.由于电子技术(特别是大规模、超大规模集成电路)的发展,使数字电子计算机作为高科技计算工具已发展到当今盛世地步,而人工神经网络模拟仿真生物神经网络的探索则经历了半个世纪的曲折发展道路.

1

1.2.1 兴起阶段

1943年心理学家W.S.McCulloch和数学家Pitts首先以数理逻辑的方法研究用人工神经网络模拟、仿真和近似生物神经网络的探索,并提出M—P神经元模型.1949年D.O.Hebb从心理学的角度提出了至今仍对神经网络理论有着重要影响的Hebb学习法则.50年代末到60年代初,神经网络系统已开始作为人工智能的一条途径而受到人们的重视.1961年E.Rosenblatt提出了著名的感知机(Perceptron)模型.这个模型由简单的阀值性神经元构成,初步具备了诸如学习性、并行处理、分布存贮等神经网络的一些基本特征,从而确立了从系统角度进行人工神经网络研究的基础.

1962年Widrow提出了主要适用于自适应系统的自适应线性元件(Adaline)网络.神经网络的研究进入了一个高潮.

1.2.2 萧条阶段

在整个70年代中,对神经网络理论的研究进展缓慢,原因主要来自于科技界漫不经心的对待和数字计算机飞速发展的冲突,但并没有完全停顿下来.世界上一些对神经网络抱有坚定信心和严肃科学态度的学者们,没有放弃他们的努力.在这期间,Grossberg提出了自适应共振理论(ART);芬兰学者Kohono提出了自组织映射理论(SOM);日本的福岛邦彦提出了认知机(Cognitron)模型,随后又提出了改进至新认知机(Neocognitron)模型;另一位日本学者中野馨提出了联想记忆模型一联想机(Associatron);东京大学的甘利俊一博土则一直致力于数学理论解释神经网络.

70年代末期以来,复杂行为系统理论(如耗散结构、协同学、混吨)的出现,人们认识到人工智能、联想记忆学习算法、信息优化组合处理及杉式识别的重要性,极大地推动了人工神经网络的发展.

1.2.3 兴盛阶段

进入80年代,特别是80年代末期,神经网络的研究从复兴很快转入了新的热网.主要原因来自两个方面:一方面经过十几年迅速发展起来的以逻辑符号处理为主的人工智能理论和Von Neumann计算机在处理诸如视觉、听觉、形象思维、联想记忆等智能信息处理问题上受到了挫折;另一方面,80年代并行分布处理模式的神经网络本身的研究成果,使人们看到了新的希望.这一时期首先要提到的是美国加州理工学院的物理学家Hopfield的开拓性工作.1982年他提出了一个新的神经网络模型——Hopfield网络模型,并首次引入了网络能量函数概念,使网络稳定性研究有了明确的判据.尤其是1986年R Mmel—hart和McCelland及其研究小组提出的误差逆传播学习算法,成为至今影响最大的一种网络学习方法.

到90年代以后,人工神经网络从理论研究到软件开发、软件实现、各个学科领域广泛应用与相互渗透等诸多方面取得了全面的发展.有关神经网络的国际学术组织纷纷成立,学术会议纷纷召开,学术刊物纷纷创刊.神经网络理论已涉及到了神经生理科学、认识科学、数理科学、心理学、信息科学、计算机科学、微电子学、光学、生物电子学等众多学科,是一门新兴的、综合性的前沿学科.针对不同应用目的的软件开发全面展开,网络计算机的硬件实现方面也取得了一些实实在在的成绩.神经网络的应用,已渗透到模式识别、图像处理、非线性优化、语音处理、自然语言理解、自动目标识别、机器人、专家系统等各个领域,并取得了令人瞩目的成果.

总之,以Hopfield教授1982年发表的论文为标志,掀起了神经网络的研究热

2

潮.1987年6月,在美国加州举行了第一届NN国际会议,有一千多名学者参加,并成立了国际NN学会,以后每年召开两次国际联合NN大会(IJCNN),其他国际学术会议也都列有NN主题.

较有影响的国际刊物有:《IEEE Transaction on Neural Network》和《Neural Network》.

美国IBM、AT&T、贝尔实验室、神经计算机公司、各高校、美国政府制定了“神经、信息、行为科学(NIBS)”计划,投资5.5亿美元作为第六代计算机的研究基础;美国科学基金会、海军研究局和空军科学研究部三家投资一千万美元;美国国防部DARPA认为NN“看来是解决机器智能的唯一希望”“这是一项比原子弹工程更重要的计术”投资四亿美元.主要研究目标:目标识别与追踪、连续语音识别,声纳信号辨别.

日本的富士通、日本电气、日立、三菱、东芝急起直追.1988年日本提出了所谓的人类尖端科学计划(Human Frontier Science Program),即第六代计算机研究计划.法国提出了“尤里卡”计划,还有德国的“欧洲防御”和前苏联的“高技术发展”等等.

我国于1989年在北京召开了一个非正式的NN会议;1990年12月在北京召开了中国NN大会;1991年在南京成立中国NN学会,由国内十五个一级学会共同发起“携手探智能,联盟攻大关”的863高技术研究计划;自然科学基金、国防科技预研究基金也都列入了NN研究内容.

1.3 人工神经网络

1.3.1 生物神经元模型

在人类大脑皮层中大约有100亿个神经元,60万亿个神经突触以及他们的联接体.单个神经元处理一个事件需要10?3秒,而在硅芯片中处理一事件只需10?9秒.但人脑是一个非常高效的结构,大脑中每秒钟每个动作的能量约为10?16焦耳.

神经元是基本的信息处理单元.生物神经元主要由树突、轴突和突触组成.其结构示意如如图1-1所示.

其中树突是由细胞体向外伸出的,有不规则的表面和许多较短的分支.树突

树突 细胞质 细胞核 细胞膜 轴突 突触 神经末梢 图1-1 生物神经元模型

相当于信号的输入端,用于接收神经冲动.轴突由细胞体向外伸出的最长的一条分支,即神经纤维.相当于信号的输出电缆,其端部的许多神经末梢为信号输出端子,用于传

3

出神经冲动.神经元之间通过轴突(输出)和树突(输入)相互联接,其接口称为突触.每个细胞约有103~104个突触.神经突触是调整神经元之间相互作用的基本结构和功能单元,最通常的一种神经突触是化学神经突触,它将得到的电信号化成化学信号,再将化学信号转化成电信号输出.这相当于双接口设备.它能加强兴奋或抑制作用,但两者不能同时发生.细胞膜内外有电位差,越位20~100mv,称为膜电位.膜外为正,莫内为负.

神经元作为信息处理的基本单元,具有如下重要的功能.

1)可塑性:可塑性反映在新突触的产生和现有的神经突触的调整上, 可塑性使适应周围的环境.

2)时空整合功能:时间整合功能表现在不同时间、同一突触上;空间整合功能表现在同一时间、不同突触上.

3)兴奋与抑制状态:当传入冲动的时空整合结果,使细胞膜电位升高,超过被称为动作电位的阀值(约为40mv),细胞进入兴奋状态,产生神经冲动,由突触输出;同样,当膜电位低于阀值时,无神经冲动输出,细胞进入抑制状态.

4)脉冲与电位转换:沿神经纤维传递的电脉冲为等幅、恒宽、编码(60~100mv)的离散脉冲信号,而细胞电位变化为连续信号.在突触接口处进行“数/模”转换.神经元中的轴突非长和窄,具有电阻高、电压大的特性,因此轴突可以建模成阻容传播电路.

5)突触的延时和不应期:突触对神经冲动的传递具有延时和不应期,在相邻的二次冲动之间需要一个时间间隔.在此期间对激励不响应,不能传递神经冲动.

6)学习、遗忘和疲劳:突触的传递作用有学习、遗忘和疲劳的过程.

1.3.2 人工神经网络的模型

人工神经网络是由大量处理单元广泛互连而成的网络,是人脑的抽象、简化、模拟,反映人脑的基本特性.一般神经元模型应该具备三个要素:

(1)具有一组突触或联接,常用wij表示神经元i和神经元j之间的联系强度,或称之为权值.与人脑神经元不同,人工神经元权值的取值可在负值与正值之间.

(2)具有反映生物神经元时空整合功能的输入信号累加器.

(3)具有激励函数用于限制神经元输出.激励函数将输出信号压缩(限制)在一个允许范围内,使其成为有限值,通常,神经元输出的扩充范围在[0,1]或[?1,1]闭区间.

一个典型的人工神经元模型如图1-2所示.

x1 x2 wi2 wi1 ui xjxN ?wij ?wiN ?i i vi f(?) 其中xj(j?1,2,?N)为神经元i的输入信号,wij为突触强度或联接权.ui是由输入信号线性组合后的输出,是神经元i的净收入.?i为神经元的阀值或称为偏差用bi表示,vi

4

图1-2 人工神经元模型