均匀设计与均匀设计表--方开泰 下载本文

目录

序言 .................................................................................................................................................. 2 前言 .................................................................................................................................................. 4 第一章 试验设计和均匀设计 ....................................................................................................... 5

1.1试验设计 ............................................................................................................................. 5 1.2试验的因素和水平 ............................................................................................................. 7 1.3因素的主效应和因素间的交互效应 ................................................................................. 9 1.4全面试验和多次单因素试验 ........................................................................................... 13 1.5正交试验法(正交设计) ............................................................................................... 16 1.6均匀设计 ........................................................................................................................... 18 1.7均匀设计表的使用 ........................................................................................................... 21 第二章 回归分析简介及其在均匀设计中的应用 ....................................................................... 24

2.1一元线性回归模型 ........................................................................................................... 24 2.2多元线性回归模型 ........................................................................................................... 29 2.3二次型回归模型与变量筛选 ........................................................................................... 31 2.4应用实例 ........................................................................................................................... 32 2.5寻求最优工艺条件 ........................................................................................................... 35 第三章 均匀设计表的构造和运用 ............................................................................................. 36

3.1 均匀设计表的构造 ........................................................................................................ 36 3.2 均匀性准则和使用表的产生 ........................................................................................ 39 3.4 均匀设计和正交设计的比较 ........................................................................................ 46 第四章 配方均匀设计 ................................................................................................................. 49

4.1 配方试验设计 ................................................................................................................ 49 4.2 配方均匀设计 ................................................................................................................ 51 4.3 有约束的配方均匀设计 ................................................................................................ 53 4.4 均匀设计在系统工程中的应用 .................................................................................... 56

序言

在科学实验与工农业生产中,经常要做实验。如何安排实验,使实验次数尽量少,而又能达到好的试验效果呢?这是经常会碰到的问题。解决这个问题有一门专门的学问,叫做“试验设计”。试验设计得好,会事半功倍,反之就会事倍功半了。60年代,华罗庚教授在我国倡导与普及的“优选法”,即国外的斐波那契方法,与我国的数理统计学者在工业部门中普及的“正交设计”法都是试验设计方法。这些方法经普及后,已为广大技术人员与科学工作者掌握,取得一系列成就,产生了巨大的社会效益和经济效益。随着科学技术工作的深入发展,上述两种方法就显得不够了。“优选法”是单变量的最优调试法,即假定我们处理的实际问题中只有一个因素起作用,这种情况几乎是没有的。所以在使用时,只能抓“主要矛盾”,即突出一个因素,而将其他因素固定,这样来安排实验。因此“优选法”还不是一个很精确的近似方法。“正交设计”的基础是拉丁方理论与群论,可以用来安排多因素的试验,而且试验次数对各因素的各水平的所有组合数来说是大大地减少了,但对于某些工业试验与昂贵的科学实验来说,试验仍嫌太多,而无法安排。

1978年,七机部由于导弹设计的要求,提出了一个五因素的试验,希望每个因素的水平数要多于10,而试验总数又不超过50,显然优选法和正交设计都不能用,方开泰教授在几年前,曾为近似计算一个多重积分问题找过我,我向他介绍了多重数值积分的方法并取得了好结果,这就使他想到是否可能用数论方法于试验设计的问题,于是我们经过几个月的共同研究,提出了一个新的试验设计,即所谓“均匀设计”,将这一方法用于导弹设计,取得了成效,我们的文章在80年代初发表后,15年来,均匀设计已在我国有较广泛的普及与使用,取得了一系列可喜的成绩。

均匀设计属于近30年发展起来的“伪蒙特卡罗方法”的范筹。将经典的确定的单变量问题的计算方法推广后用于多变量问题的计算时,计算量往往跟变量个数有关,即使电脑再进步很多,这种方法仍无法实际应用,乌拉母(S.Ulam)与冯诺依曼(J.von Neumann)在40年代提出蒙特卡罗方法,即统计模拟方法,这个方法的大意是将一个分析问题化为一个有同样解答的概率问题,然后用统计模拟的方法来处理后面这个问题,这样使一些困难的分析问题反而得到了解决,例如多重定积分的近似计算。蒙特卡罗方法的关键是找一组随机数作为统计模拟之用,所以这一方法的精度在于随机数的均匀性与独立性。

50年代末,有些数学家试图用确定性方法寻找空间中均匀散布的点集来代替蒙特卡罗方法中的随机数,已经找到的点集都是用数论方法找到的。按照外尔(H. Weyl)定义的测度来度量,它们的均匀性很好,但独立性差些,用这些点集来代替蒙特卡罗方法中的随机数,

往往会得到更精确的结果。这一方法称为伪蒙特卡罗方法或数论方法,数学家首先将这一方法成功地用于多重积分近似计算。从统计学的观点看,伪随机数就是一个均匀分布的样本。数值积分需要大样本,均匀设计则要找一些小样本。由于这个样本比正交设计所对应的样本要均匀,所以用它来安排实验会得到好的效果。当然在寻求小样本时,寻求大样本的方法是起了借鉴作用的。

均匀设计只是数论方法的一个应用,数论方法还有广泛应用的园地。例如多重插值公式的建立,某些积分与微分的近似求解,求函数整体极值,求某些多元分布的近似代表点,及用于统计推断的一些问题,如多元正态性检验及多元球性检验。

早在50年代末,外国刚开始研究为蒙特卡罗方法时,华罗庚就倡议并领导了这一方法在我国的研究,他的开拓性成果总结在我们的专著“数论在近似分析中的应用”(科学出版社,1978年;英文版:Springer-Verlag and Science Press,1981)中,这些工作是方开泰教授与我合作的工作重要的背景与参考材料之一。

我与方开泰教授合作了近20年,由于他既是一个数学家,又有长期在中国各工业部门普及应用数理统计的宝贵经验,所以他有很好的应用数学背景与洞察力。他能及时地提出有价值的研究问题及解决问题的可能途径,我们的合作既是愉快的,又是富于成效的,我们的成果总结在我们的专著”Number-Theroretic Methods in Statistics”(Chapman and Hall,1993,中文版在出版过程中)之中。

方开泰教授的这本书着重于应用及普及,但也包括了他的最新成果,书后的均匀设计表就是最近他用准确的偏差方法算出来的,比过去的结果有较大的改进,我相信本书的出版,对于在我国进一步普及与应用均匀设计将是很重要的,我愿借此机会预祝本书成功。

王元

1994年2月

前言

均匀设计是1978年王元教授和我共同提出的,10多年来,均匀设计在理论上有了不少新的发展,如各种均匀性度量的探讨,拉丁方均匀设计的提出将均匀设计用于配方设计而产生的配方均匀设计,特别地,最近我们又发现了一批奇数的均匀设计表,它们比原来的表均匀性有显著地改善,这些表和它们的均匀表都已收集在本书的附录中,由于实际的需要,利用拟水平的技术可以产生有混合水平的均匀设计表,本书也给出了不少这一类的设计表,并列出它们的均匀度,此外,本书给出了均匀设计和正交设计的比较。

本书是一本普及教材,目的是向广大科技工作者介绍均匀设计的原理,方法和应用,读者并不需要具备高深的数学和统计知识,中国数学会均匀设计学会已经研制了有关软件和教学录象带,方便使用者有效地使用均匀设计,特别是数据分析方面,该软件包含了丰富的内容,比本书的材料更为丰富,本书也可作为大学和研究生的教材和参考书。 本书共分四章,第一章介绍试验设计的重要性,正交设计和如何使用均匀设计来设计试验。第二章首先对回归分析作了简单的介绍,随后介绍均匀设计的数据分析,工艺条件的优化。第三章介绍均匀设计表的构造,使用表的构造,均匀度准则,以及正交设计和均匀设计的比较。第四章讨论配方设计,首先介绍文献中推荐的三种配方设计方法,然后给出配方均匀设计,有约束配方均匀设计,最后给出均匀设计在系统工程等方面的应用。 在编写这本讲义中,中国科学院院士王元教授给出了许多指导性意见,并为本书写了精彩的序言,没有华一王(华罗庚王元)当年开创性的工作,就不可能有均匀设计。 中国航天工业总公司三院张建舟高级工程师,东北制药总厂张承恩高级工程师,北京军事医学科学院张学中研究员给了我很多支持和帮助,中国科学院应用数学所我的学生李润泽和张金廷同志协助我整理和打印,在此表示衷心地感谢。 由于作者水平有限,加之本书是利用春节假期匆匆赶出来的,难免有错误或不恰当之处,欢迎读者批评指正。

方开泰

中国科学院应用数学研究所

香港浸会大学

1994年2月

第一章 试验设计和均匀设计

1.1试验设计

在工农业生产和科学研究中,经常需要做试验,以求达到预期的目的。例如在工农业生产中希望通过试验达到高质、优产、低消耗,特别是新产品试验,未知的东西很多,要通过试验来摸索工艺条件或配方。如何做试验,其中大有学问。试验设计得好,会事半功倍,反之会事倍功半,甚至劳而无功。

本世纪30年代,由于农业试验的需要,费歇尔(R.A.Fisher)在试验设计和统计分析方面做出了一系列先驱工作,从此试验设计成为统计科学的一个分支。随后,F.Yates,R.C.

Bose,O.Kempthome,W.G.Cochran,D.R.Cox和G.E.P.Box对试验设计都作出了杰出的贡献,使该分支在理论上日趋完善,在应用上日趋广泛。60年代,日本统计学家田口玄一将试验设计中应用最广的正交设计表格化,在方法解说方面深入浅出为试验设计的更广泛使用作出了众所周知的贡献。田口玄一的方法对我国试验设计的普及和广泛应用有巨大的影响,70年代我国许多统计学家深入工厂、科研单位,用通俗的方法介绍正交试验设计,帮助工程技术人员进行试验的安排和数据分析,获得了一大批优秀成果,出版了许多成果汇编,举办了不少成果展览会。

在广泛使用试验设计方法的洪流中,必然会出现一些新的问题,这些总是用原有的各种试验设计方法不能圆满地解决,特别是当试验的范围较大,试验因素需要考察较多等级(在试验设计中这些等级称之为水平)时,用正交试验及其它流行的试验方法要求做较多的试验,常使得试验者望而生畏。许多实际问题要求一种新的试验方法,它能有效地处理多水平的试验,于是王元和方开泰于1978年提出了均匀设计(见文献「1-3」),该设计考虑如何将设计点均匀地散布在试验范围内,使得能用较少的试验点获得最多的信息。10多年来,均匀设计在国内得到了广泛应

第一章 试验设计和均匀设计 共17页

5

用,并获得不少好的成果。

试验设计在工业生产和工程设计中能发挥重要的作用,例如: 1) 2) 3) 4) 5)

提高产量;

减少质量的波动,提高产品质量水准; 大大缩短新产品试验周期; 降低成本; 延长产品寿命。

在自然科学中,有些规律开始尚未由人们所认识,通过试验设计可以获得其统计规律,在此基础上提出科学猜想,这些猜想促进了学科的发展,例如遗传学的许多发现都藉助于上述过程。 材料工业是工业中的栋梁,汽车拖拉机的制造离不开各种合金钢,钛合金的发明和发现使飞机制造工业产生飞跃。超导的研究和超导材料的配方息息相关。配方试验又称混料试验(Experiments with Mixtures),不仅出现于材料工业,而且在人们生活和其它工业中处处可见,例如在中药、饮料、混凝土的配方中。由于在配方中各种材料的总和必须为100%,其试验设计必须考虑到这个约束条件,由于这个原因正交试验设计等方法不能直接用于配方设计。针对配方设计的要求,Scheffé于1958年提出了单纯形格子点设计,随后于1963年他又提出了单纯形重心设计。Cornell[27]对配方试验设计的各种方法作了详尽的介绍和讨论。显然,均匀设计的思想也能用于配方试验,王元和方开泰[9]给出了配方均匀设计的设计方法和有关的讨论。本书第五章将系统介绍配方试验设计和配方均匀设计。

不论是均匀设计或配方均匀设计,其数据分析都要藉助于回归分析,要用到线性回归模型、二次回归模型、非线性模型,,以及各种选择回归变量的方法(如前进法、后退法、逐步回归、最优回归子集等)。有关回归分析的书籍成百上千,本书仅作梗概介绍。读者很容易找到各种参考书籍获得更详细的介绍。 试验设计的方法很多,本书重点介绍均匀设计,这并不意味其它方法不重要,每种方法都有其优点,也有其局限性,根据实际情况选取合适的方法是应用统计的重要内容。

第一章 试验设计和均匀设计 共17页

6

1.2试验的因素和水平

在工业、农业、科学研究和军事科学的研究中,经常需要作各种试验,以研究各种因素之间的关系,找到最优的工艺条件或最好的配方。让我们先看一个例子:

例1 在一个化工生产过程中,考虑影响得率(产量)的三个因素:温度(A),时间(B)和加碱量(C)。为了便于试验的安排,每个因素要根据以往的经验来选择一个试验范围,然后在试验范围内挑出几个有代表性的值来进行试验,这些值称做该因素的水平。在该例中,我们选择的试验范围如下:

温度: 77.5℃~92.5℃ 时间: 75分~165分 加碱量: 4.5%~7.5%

然后在上述范围内,每个因素各选三个水平,组成如下的因素水平表:

表1 因素水平表

因素 温度(?C) 时间(分) 1 80 90 2 85 120 6 3 90 150 7 加碱量(%) 5

选择因素和水平关系到一个试验能否成功的关键,下列的注意事项和建议对使用试验设计的人员可能是有益的。

1.在一个生产过程中,有关的因素通常是很多的,例如在例1的化工生产工艺中,有催化剂的品种,催化剂用量,加碱时的速度,

第一章 试验设计和均匀设计 共17页 7

容器中的压力等。但根据这次试验目的,除了温度(A),时间(B),和加碱量(C)各取三个水平外,其余因素是固定的,或者讲,他们只取一个水平。为了方便,通常这些固定的因素在试验方案中并不称为因素,只有变化的因素才称为因素。

2.在一项试验中,如何从众多的有关因子中挑选出试验方案中的因素?我们建议课题的领导者应当要请有经验的工程师、技术员、工人共同讨论决定。在一次试验中,因素不宜选得太多(如超过10个),那样可能会造成主次不分,丢了西瓜,拣了芝麻。相反地, 因素也不宜选得太少,(如只选定一、二个因素),这样可能会遗漏重要的因素,或遗漏因素间的交互作用,使试验的结果达不到预期的目的。例如,有这样的故事,原计划试验方案中只有三个因素,而利用试验设计的方法,可以在不增加试验数目的前提下,再增加一个因素,既然不费事何乐而不为呢?试验的结果发现,最后添加的这个因素是最重要的,从而发现了历史上最好的工艺条件,正是“有心栽花花不成,无意插柳柳成荫。”

3.试验的范围应当尽可能大一点。如果试验在试验室进行,试验范围大比较容易实现;如果试验直接在生产中进行,则试验范围不宜太大,以防产生过多次品,或产生危险。试验范围太小的缺点是不易获得比已有条件有显著改善的结果。历史上有些重大的发明和发现,是由于“事故”而获得的,也就是说试验的范围大大不同于有经验的范围。

4.若试验范围允许大一些,则每一因素的水平个数最好适当多一些。

5.水平的间隔大小和生产控制精度是密切相关的。若在例1中温度的控制只能作到

第一章 试验设计和均匀设计 共17页 8

±3℃,且我们设定控制在85℃,于是在生产过程中温度将会在85°±3℃,即82—88℃波动。不难看到,这时设定的三个水平80℃,85℃,90℃之间是太近了,应当加大,例如80℃,90℃,100℃。如果温度控制的精度可达±1℃,则例1如设定的三个水平是合理的。

6.因素和水平的含意可以是广义的。例如五种棉花用于织同一种布,要比较不同棉花影响布的质量的效应,这时“棉花品种”可设定为一个因素,五种棉花就是该因素下的五个水平 。

1.3因素的主效应和因素间的交互效应

根据试验的目的,要预先确定一项或多项试验指标,为简单计,本书仅讨论只有一项试验指标(记作Y)的情形。如例如1的试验Y是得率。在数理统计中,称试验指标为响应(response)为通俗起见,本书中就叫试验指标。

考察一个因素对试验指标的影响是试验的目的之一。若在一项试验中,考察温度和得率Y之间的关系,并取温度五个水平,其相应Y值如下:

温度 Y 50℃ 30% 60℃ 35% 70℃ 40% 80℃ 45% 90℃ 50% 我们看到,温度每增加10℃得率增加5%这5%就是温度的效应。上述试验可以表成一个线性数学模型

Yi????i,i?1,?,5 (1.1)

其中Yi为第i次试验结果,?为温度从50℃到90℃范围内Y的平均值。

?,即 通常可以用五次试验的平均值来估计,记作????1?30?35?40?45?50??40 5?i表示温度取第i个水平时Yi的值与之?差。不难发现,它们的估计

第一章 试验设计和均匀设计 共17页

9

值为

?1?30?40??10,??2?35?40??5??3?40?40?0,??4?45?40?5? ?5?50?40???1,?,??5为它们的估计这里?1,?,?5称为温度在五个水平下的主效应,?值。

由于试验中总存在一些偶然因素的干扰,如室温的变化,电压的波动,材料的不均匀性,这些偶然因素总称为随机误差。由于试验误差的存在,不可能产生上例那么理想的情况。其实际数据可能为

温度 Y 这时数学模型为 50℃ 32% 60℃ 34% 70℃ 39% 80℃ 46% 90℃ 49% Yi????i??i,i?1,?,5 (1.2)

这里?i为第i次试验的试验误差。这时试验必须有重复才能估计出?i和?i.

实际上,当试验的水平和相应的Y为连续变量时,其数学模型也可以用回归方程来表达,例如,用线性回归方程

Y????X?? (1.3)

其中X表示温度,?和?是回归系数,?为随机误差。在第二章将介绍,?和?可以用最小二乘法由试验数据估出,由上述温度和得率的数据可得回归方程

??7.80?0.46X (1.4) Y?为试验结果Y的估计值。这里Y利用方程(1.4)可以估出五次试验的结

果如下:

?I Y?I YI?Y30.8 1.2 35.4 -1.4 40.0 -1.0 44.6 1.4 49.2 -0.2 10

第一章 试验设计和均匀设计 共17页

?I称为残差,它的大小反映了回归方程(1.4)的精确程度,并其中YI?Y可用它作回归诊断,更详细讨论请看第二章。

方程(1.4)中,X的回归系数0.46有明确的实际含意,它表示温度每增加一度,其得率Y平均增加0.46%,于是0.46反映了X对Y的效应,这里可以称为线性回归效应。

有一点是必须注意的,无论是模型(1.2)中的主效应??i?,还是模型(1.3)中的线性回归效应?,都强烈地依赖于试验条件,尤其是X的试验范围,也就是说,这两个模型只适用于X的试验范围内。否则,

?的估值为104.4%,这是不可能的,因为得率总是当X为210°时,Y小于100%的。

显然,模型(1.2)和(1.3)是最简单的情形,实际情况是多种多样的,例如X和Y之间可能有非线性回归关系,或其它相关关系。这些将在以后讨论。

现在我们来介绍因素间交互作用的概念。首先,设有两个因素A和B它们各取两个水平A1,A2和B1,B2。这时共有四种不同的水平组合,其试验结果列于图1。当B?B1时,A1变到A2使Y增加30-10=20;类似地,当B?B2时,A1变到A2使Y也增加40-20=20。这就是说A对Y的影响与B取什么水平无关。类似地,当B从B1变到B2时,Y增加20-10(或40-30=10),与A取的水平无关。这时,我们称A和B之间没有交互作用。判断和之间有没有交互作用,选用图2的作图方法更为直观。当图中的两条线平行时(或接近平行时),判断A和B之间没有交互作用.图3和图4给出了一个有交互作用的例子,它们的含意和作图方法与图和图2是一样的。

第一章 试验设计和均匀设计 共17页 11

1

交互作用在实际中是大量存在的,例如化学反应中催化剂的多少

与其它成分的投入量通常是有交互作用的。水中各种金属含量太多,对人体健康会造成危害,金属之间对人体的危害也存在交互作用(参见例5)。

当因素A,B 及其它们的试验指标Y都为连续变量时,可以建立Y和A;B之间的回归方程。若回归方程为

Y????A??B?? (1.5)

时,A对Y的影响由回归系数?完全决定,不受B取哪个水平的影响;类似地,B对Y的影响由回归系数γ完全决定,不受A取哪个水平的影响;类似地,对的影响由回归系数 完全 决定,不受取哪个水平的影响。这时A和B没有交互作用。

当A和B之间有交互作用时,回归模型不可能为线性的,其中一定有非线性的。最常见的模型之一为

Y????A??B??AB?? (1.6)

其中?,?,?,?为回归系数,?为随机误差。这时若?>0,称A和B之

第一章 试验设计和均匀设计 共17页 12

间有正交互作用;若?<0,称A和B之间有负交互作用.请看如下两个例子

??1?2A?3B?3.5ABY

?Y2?1?2A?3B?3.5AB当A=3.5,B=4.10时,相应两个回归方程的试验指标列于图5和图6。我们看到两种情形均有交互作用,且一个为正交互作用,另一个为负交互作用。

两个因素之间有交互作用时,其回归模型不一定呈(1.6)形式,更详细讨论可参见第二章第三节。多个因素之间(超过二个因素)也可能有交互作用,该问题也将在第二章讨论。

1.4全面试验和多次单因素试验

在一项试验中,当因素和水平确定后,如何设计该项试验呢?下面两种方法是最容易想到的: 1、全面试验

该方法将每一个因素的不同水平组合做同样数目的试验,例如将每个因素的不同水平组合均作一次试验。

在一项试验中若有m个因素, 它们各有l1,?,lm个水平, 则全面试

第一章 试验设计和均匀设计 共17页

13

验至少需做l1?l2???lm次试验。例如,在例1中,l1?l2?l3?3则全面试验至少做3?3?3?27次试验。当因素的个数不多,每个因数的水平数也不多时,人们常用全面试验的方法,并且通过数据分析可以获得较为丰富的结果,结论也比较精确。当因数较多,水平数较大时,全面试验要求较多的试验。例如,有六个因素,每个因素都是五水平,则至少需56?15625次试验,这个数目太大了,对绝大多数场合,做这么多次试验是不可能的。因此,我们需要一种试验次数较少,效果又与全面试验相近的试验设计方法。 2、多次单因素试验

这个方法在工程和科学试验中常被人们所采用,现以例1来说明这个方法。例1试验的目的是要寻找好的工艺使得化学反应后的得率最高。为介绍简单计,设试验误差较小,故不作重复试验(即在同一试验条件下将试验重复多次)。

设先将时间和加碱量固定,变化温度,试验结果如下:

B=90分 80℃ 85℃ 90℃ C=5% 33% 70% 64%

其中33%,70%和 64%为得率,三次试验中,以70%为最高,故温度85°为最佳。第二步

固定温度和加碱量,变化时间,其试验结果如下:

A=85℃ 90分 120分 150分 C=5% 70% 73% 59%

以反应时间为120分最佳。下一步是固定时间和温度,变化加碱量,

第一章 试验设计和均匀设计 共17页

14

获得如下结果:

A=85℃ 5% 6% 7% B=120分 73% 75% 68%

以加碱量 75%为最佳,于是有人就得出结论:最佳工艺为A=80℃,B=120分,C=6%。

当因素之间没交互作用时,这个结论是正确的;当因素之间有交互作用时,该结论一般不真,今设例 1的因素间有交互作用,在上述试验的基础上,若我们固定B=120分,C=6%,变化因素 A并获得如下结果:

B=120分 80℃ 85℃ 90℃ C=6% 46% 75% 78%

发现有更好的工艺条件。这时我们发现温度的效应是依赖于因素B和C的,当B=90分,C=

5%时,温度以85℃为佳,而当B=120分,C=6%时,温度以90℃为佳,这种现象表明温

度和其他两因素间有交互作用。当因素间有交互作用时,用上述方法不一定能选到最好的工艺条件。例如,例1的试验应当继续按原来的方法做下去:

A=90℃ 90分 120分 150分 C=6% 73% 78% 84%

第一章 试验设计和均匀设计 共17页

15

发现工艺条件A=90℃, B=120分,C=6%为最优工艺条件且似乎已不能改进。如果我们将27个工艺组合进行全面试验,发现当工艺条件为A=90℃,B=150分,C=7%时得率可达82%,而这个工艺条件没有为上面的试验方法所发现。因此,多次单因素试验法有局限性。特别是,当因素的数目和水平数更多时,常常会得到错误的结论,不能达到预期的目的。

1.5正交试验法(正交设计)

这是目前最流行,效果相当好的方法。统计学家将正交设计通过一系列表格来实现,这些表叫做正交表。例如表2就是一个正交表,并记为L9?34?,这里“L”表示正交表“9”表示总共要作9次试验,“3”表示每个因素都有3个水平,“4”表示这个表有4列,最多可以安排4个因素。常用的二水平表有L4?23?,L8?27?,L16?215?,L32?231?;三水平表有L9?34?,L27?313?;四水平表有L16?45?;五水平表有L25?56?等。还有一批混合水平的表在实际中也十分有用,如

L84?24,L1223?31,L1644?23,L1643?26,L1642?29,

121873616161816??????????L?4?2?,L?8?2?,L?2?3?等。例如L?4?2?表示要求做16次试验,

允许最多安排三个“4”水平因素,六个“2”水平因素。

表2 正交表 L9 (34 )

No. 1 2 3 4 1 1 1 1 1 2 1 2 2 2 3 1 3 3 3 4 2 1 2 3 5 2 2 3 1 6 2 3 1 2 7 3 1 2 2 8 3 2 1 3 9 3 3 2 1

若用正交表来安排例1的试验,其步骤十分简单,具体如下:

第一章 试验设计和均匀设计 共17页

16

(1)选择合适的正交表。适合于该项试验的正交表有

?? (2)将A,B,C三个因素放到L?3?的任意三列的表头上,例如

L934,L182?37,L27313等,我们取L934,因为所需试验数较少。

49??????放在前三列。

(3)将A,B,C三例的“1”,“2”,“3”变为相应因素的三个水平。

(4)9 次试验方案为:第一号试验的工艺条件为A1 (80℃),B1 (90分),C1 (5%);

第二号试验的工艺条件为A1 (80℃),B2 (120分),C2 (6%)…。这样试验方案就排好了。该例的进一步讨论请参考文献[25]。

表 3 正交试验方案

No. 1 2 3 4 5 6 7 8 9

在表3的正交试验设计中,可以看到有如下的特点: 1)每个因素的水平都重复了3次试验;

A 80℃ 80℃ 80℃ 85℃ 85℃ 85℃ 90℃ 90℃ 90℃ B 90分 120分 150分 90分 120分 150分 90分 120分 150分 C 5% 6% 7% 6% 7% 5% 7% 5% 6% 第一章 试验设计和均匀设计 共17页 17

2)每两个因素的水平组成一个全面试验方案。这两个特点使试验点在试验范围内排列规律整齐,有人称为“整齐可比”。另一方面,如果将正交设计的9个试验点点成图(图7),我们发现9个试验点在试验范围内散布均匀,这个特点被称为“均匀分散”。正交设计的优点本质上来自“均匀分散,整齐可比”这两个特点。有关正交设计的详细讨论可参看文献[24—26,30]。

1.6均匀设计

每一个方法都有其局限性,正交试验也不例外,它只宜于用于水平数不多的试验中。若在一项试验中有s 个因素,每个因素各有q 水平,用正交试验安排试验,则至少要作q2个试验,当q 较大时,q2将更大,使实验工作者望而生畏。例如,当 q=12 时,q2=144,对大多数实际问题,要求做144 次试验是太多了!对这一类试验,均匀设计是非常有用的。

所有的试验设计方法本质上就是在试验的范围内给出挑选代表点的方法。正交设计是根据正交性准则来挑选代表点,使得这些点能反映试验范围内各因素和试验指标的关系。上节我们提及正交设计在挑选代表点时有两个特点:均匀分散,整齐可比。“均匀分散”使试验点有代表性;“整齐可比”便于试验数据的分析。为了保证“整齐可比”的特点,正交设计必须至少要求做q2次试验。若要减少试验

第一章 试验设计和均匀设计 共17页 18

的数目,只有去掉整齐可比的要求。

均匀设计就是只考虑试验点在试验范围内均匀散布的一种试验设计方法,其原理将在第三章给出。

均匀设计和正交设计相似 ,也是通过一套精心设计的表来进行试验设计的。附录Ⅰ给出了41个均匀设计表和相应的使用表。表4、表5和表6就是其中的三个。每一个均匀设计表有一个代号Un?qs?或

*Unqs,其中“U”表示均匀设计,“n” 表示要做n 次试验,“q”表

??示每个因素有q个水平,“s”表示该表有s列。的右上角加“*”和不加“*”代表两种不同类型的均匀设计表。通常加“*”的均匀设计

*4?6?表示要做次6试验,每表有更好的均匀性,应优先选用。例如U6个因素有6个水平,该表有4列。

每个均匀设计表都附有一个使用表,它指示我们如何从设计表中选用适当的列,以及由这些列所组成的试验方案的均匀度。表7是

*4U66的使用表。它告诉我们,若有两个因素,应选用1,3两列来安

??排试验;若有三个因素,应选用1,2,3三列,…,最后1列D表示刻划均匀度的偏差(discrepancy),偏差值越小,表示均匀度越好。

*4?7?表和及它们的使用表例如由附录A1.3和A1.4的两个均匀设计U7来安排试验,今有两个因素,若选用U7?74?的1,3列,其偏差D=0.2398,

*4?7?的1,3列,相应偏差D=0.1582,后者较小,应优先择用。选用U7有关D的定义和计算将在第三章介绍。当试验数n给定时,通常Un表

**比Un表能安排更多的因素。故当因素s较大,且超过Un的使用范围

时可使用Un表。

*4?6? 表4 U6 1 2 1 1 2 2 2 4 3 3 6 4 6 5 19

第一章 试验设计和均匀设计 共17页

3 4 5 6 3 4 5 6 6 1 3 5 表5 U7?74?

2 5 1 4 4 3 2 1 1 2 3 4 5 6 7 1 1 2 3 4 5 6 7 2 2 4 6 1 3 5 7 3 3 6 2 5 1 4 7 4 6 5 4 3 2 1 7 *6?6?最多可以安排四个因素的试验。若用正交表安如上所述,表U6排三个6水平因素,至少要采用L36?63?,该表最多能安排三个因素,

*?,另一个为可要做36次试验,而两个表的偏差一个为0.1875?U60.1597?L36?(参见表23),相差并不十分大。由此例可见均匀设计的优点。

*4?7? 表6 U7 1 2 3 4 5 6 7 1 1 2 3 4 5 6 7 2 3 6 1 4 7 2 5 3 5 2 7 4 1 6 3 4 7 6 5 4 3 2 1 *4?6?的使用表 表7 U6S 2 3 4 列 1 1 1 3 2 2 号 3 3 4 D 0.1875 0.2656 0.2990 均匀设计有其独特的布(试验)点方式,其特点表现在: 1)每个因素的每个水平做一次且仅做一次试验。

第一章 试验设计和均匀设计 共17页

20

2)任两个因素的试验点点在平面的格子点上,每行每列有且仅

*6?6?的第一列和第三列点成图8(a). 有一个试验点。如表U6 性质1)和2)反映了试验安排的“均衡性”,即对各因素,每个因素的每个水平一视同仁。

3)均匀设计表任两列组成的试验方案一般并不等价。例如

*6?6?的1,3 和1,4列分别画图,得图8(a)和图8(b)。我们看到,用U6(a)的点散布比较均匀,而(b)的点散布并不均匀。均匀设计表的这一性质和正交表有很大的不同,因此,每个均匀设计表必须有一个附加的使用表。

4)当因素的水平数增加时,试验数按水平数的增加量在增加。如当水平数从9水平增加到10水平时,试验数n 也从9增加到10。而正交设计当水平增加时,试验数按水平数的平方的比例在增加。当水平数从9到10时,试验数将从81增加到100。由于这个特点,使均匀设计更便于使用。均匀设计表还有一些其它的特点,在第三章将进一步介绍。

1.7均匀设计表的使用

本节介绍如何利用均匀设计表来安排试验。其步骤和正交设计很相似,但也有一些不同之处。通常有如下步骤:

1)根据试验的目的,选择合适的因素和相应的水平。 2)选择适合该试验的均匀设计表,然后根据该表的使用表从中

第一章 试验设计和均匀设计 共17页

21

选出列号,将因素分别安排到这些列号上,并将这些因素的水平按所在列的指示分别对号,则试验就安排好了。

例2 (本例来自文献[1])在阿魏酸的合成工艺考察中,为了提高产量,选取了原料配比(A)、吡啶量(B)和反应时间(C)三个因素,它们各取了7个水平如下:

原料配比(A):1.0,1.4,1.8,2.2,2.6,3.0,3.4 吡啶量(B)(ml):10,13,16,19,22,25,28 反应时间(C)(h):0.5,1.0,1.5,2.0,2.5,3.0,3.5

*4?7?或U7?74?。由它们的根据因素和水平,我们选取均匀设计表U7使用表中可以查到,当s=3时,两个表的偏差分别为0.2132和0.3721,

*4?7?来安排该试验,其试验方案列于表8。该方案是将故应当选用U7*4?7?表的后3列而获得的。 A,B,C分别放在U7*3?7?和结果 表8 制备阿魏酸的试验方案U7No. 1 2 3 4 5 6 7

配比(A) 吡啶量(B) 反应时间收率(Y) (C) 1.0(1) 1.4(2) 1.8(6) 2.2(1) 2.6(5) 3.0(6) 3.4(7) 13(2) 19(4) 25(6) 10(1) 16(3) 22(5) 28(7) 1.5(3) 3.0(6) 1.0(2) 2.5(5) 0.5(1) 2.0(4) 3.5(7) 0.330 0.336 0.294 0.476 0.209 0.451 0.482 表9 制备阿魏酸的试验方案U7?73?和结果 No. 1 2 3 4 5 6 7 配比(A) 1.0(1) 1.4(2) 1.8(3) 2.2(4) 2.6(5) 3.0(6) 3.4(7) 吡啶量(B) 反应时间(C) 收率(Y) 13(2) 1.5(3) 0.330 19(4) 3.0(6) 0.336 25(6) 1.0(2) 0.294 10(1) 2.5(5) 0.476 16(3) 0.5(1) 0.209 22(5) 2.0(4) 0.451 28(7) 3.5(7) 0.482 22

第一章 试验设计和均匀设计 共17页

*4?7?表是最近由方开泰和李久坤[14]获得的,故文献[1]使用 由于U7的是U7?76?均匀设计表,他们的试验方案列于表9。根据试验方案进行试验,其收率(Y)列于表9的最后一列,其中以第7号试验为最好,其工艺条件为配比3.4,吡啶量28ml,反应时间3.5h。下章将通过统计分析(其中最主要是回归分析),可以发现更好的工艺条件。

第一章 试验设计和均匀设计 共17页 23

第二章 回归分析简介及其在均匀设计中的应用

回归分析是数据分析的有力工具,它能揭示变量之间的相互关系,因此在均匀设计的数据分析中成为主要的手段,回归分析方法和理论十分丰富,有关书籍数以百计,这里仅作一梗概介绍,细节可以参看有关书籍,如[26,29,30]数据处理可使用统计软件包SAS,SPSS,MINITAB,BMDP,S等,国内许多部门如中国均匀设计学会为均匀设计及其数据分析制作了专用统计软件包,使用更为方便。 2.1一元线性回归模型

由于均匀设计的数据分析要利用回归分析,因此需要对回归分析作一扼要介绍。一元线性回归是处理两个变量之间关系的最简单的模型。本章将详细讨论这个模型。一元线性回归虽简单,但从中可以了解回归分析方法的基本思想/方法和应用。

我们首先通过一个例子说明如何建立一元线性回归方程。

例3 为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度(X)与当年灌溉面积(Y),得到连续10年的数据于下页表中。

为了研究这些数据中所蕴含的规律性,我们把各年最大积雪深度作横坐标,相应的灌溉面积作纵坐标,将这些数据点标在平面直角坐标图上,如图9,这个图称为散点图。

从图9看到,数据点大致落在一条直线附近,这告诉我们变量X与Y之间的关系大致可看作是线性关系,从图9还看到,这些点又不都在一条直线上,这表明X与Y的关系并没有确切到给定X就可以唯一地确定Y的程度。事实上,还有许多其他因素对Y产生影响,如当年的平均气温,当年的降雨量等等,这些都是影响Y取什么值的随机因素。如果我们只研究X与Y的关系,可以假定 年序 最大积雪深度X(尺) 灌溉面积Y(千亩) 1 15.2 28.6 2 10.4 19.3 3 21.2 40.5 4 18.6 35.6 5 26.4 48.9 6 23.4 45.0 7 13.5 29.2 8 16.7 34.1 9 24.0 46.7 第二章 回归分析简介及其在均匀设计中的应用 共12页

24

10 有如下结构式: 19.1 37.4 Y=α+βX+ε (2.1)

式中α,β 称为回归系数,X为自变量,Y为因变量,ε表示随机误差,常常假定ε遵从正态分布N(0,σ2),这表示误差为正和负的机会一样多,σ2 表示误差的大小。式中α,β,σ2 通常是未知的,它们要通过数据的信息来估计。 设{(Xi,Yi),i=1,…n}为一组数据,若用回归方程(2.1)来拟合,则当X=Xi时Yi的估计值为

?i????Xi,i?1,?,n (2.2) Y?i与Yi很自然,我们希望求α和β使Y.也就是说,我们要决定一

条直线,使其与所有的点都比较接近,最流行求α,β 估计值的办法是用最小二乘法,令

?iQ??Yi?Yi?1n

?????Y????X?2niii?12 (2.3)

最小二乘法是求α和β使Q达极小,使Q达极小的α和β值记为a

和b.利用微积分中求极值的办法求得

?b?LXY/LXX ?a?Y?bX? (2.4)

式中

1n?X??i?1Xi?n???Y?1?in?1Yi (2.5) ?n?2n??L?X?X?XX?i?1i?n??LXY??i?1?Xi?X??Yi?Y?

利用这些公式到例3,得

第二章 回归分析简介及其在均匀设计中的应用 共12页

25

1(15.2?10.4???19.1)?18.881016?19.3???37.4)?36.53 Y?(28.10Lxx?230.656,Lxy?415.606X?于是

b=415.606/230.656=1.802 a=36.53-1.802×18.88=2.511 从而回归方程为

??2.511?1.802X Y读者试将该直线画在图9上,可以看到拟合的效果是不错的,衡量拟

合效果的好坏,如下的方法是十分有用的。 (a) 相关系数

相关系数 用于描叙变量X和Y的线性相关的程度,并常用r来表示,r的值介于[-1,1]之间,它的意义由图10可以知道。r的绝对值越接近于1表示X和Y之间的线性关系越密切;r〉0,两者呈正比关系,叫正相关;r〈 0两者呈负相关。r的值接近于0,两者没有线性相关关系。图10中(c)表示X和Y没有任何关系,(d)表示X和Y有非线性相关关系,r的计算公式为

r?LXY (2.6) LXXLYYn2式中

LYY???Yi?Y? (2.7)

i?1对例3

LYY=764.861

r=415.605/230.656?764.961 =0.9894

后者很接近于1,故最大积雪深度与灌溉面积有很密切的线性相关关系,且是正相关.但是,相关系数有一个缺点,就是它接近1的程度与样本的组数n是有关的,当n较小时,相关系数的绝对值容易接近于1,当n较大时,相关系数的绝对值容易偏小。特别当n=2时,因为两点决定一条直线,所以相关系数的绝对值总为1,在许多统计书中[29]给出相关系数的起码值,当相关系数的绝对值大于表中之值时才可以认为X和Y有线性关系。此例当显著性水平α=1%时,表中的起码值为0.765,今计算r=0.9894 > 0.765,故最大积雪深度与灌溉面积有高度的线性关系。

在有些统计软件中,常给出r2,这时便于区别记为R2。

第二章 回归分析简介及其在均匀设计中的应用 共12页 26

(b)方差分析和F检验

因变量?Yi?的波动可用LYY来表达,这个波动是由两个因素造成的;一个是X的变化引起Y相应的变化,另一个是随机误差。前者造成Y的波动可用回归平方和来表达,后者用残差平方和来度量。它们分别用 S回和S残来表示,从数学上可以导出

S残=?i?1n

??i Yi?Y?2S回=LXY-S残 (2.8)

当X和Y为线性回归模型(2.1)时,它们有如下更方便的计算公式

S回=bLXY

S残=LYY-bLXY (2.9) 利用统计量 F=?n?2?S回 (2.10) S残可以来检验回归方程(2.1)是否可信.当方程可信时F 〉F1,n?2???,这里F1,n?2???为F表中的临界值,1和n-2为自由度,α为显著水平.对例3可以算得

S回=1.802×415.606=748.922 S残=764.961-748.922=16.039

第二章 回归分析简介及其在均匀设计中的应用 共12页

27

F=8×748.922/16.039=373.55

.)?126.。用F值和F表上的临界值相比,若F 〉当α=1%时F1,8(001F1,n?2??? ,表明Y的变化主要是由X的变化造成的,回归方程(2.1)

可信;若F值小于F1,n?2???,回归方程不可信。可信的程度也可分成

不同等级,在本书中,α=5%时可信用“*” 表示,α=1%时可信用“**” 表示。上述计算结果常列成方差分析表,如表10所示。

表10方差分析表 F 方差来源 平方和 自由度 均方 显著性 1 748.922 373.550 ** 回归 748.922 16.039 8 2.005 误差 9 总和 764.961

(c) 残差分析

?i称为残差,它能提供许多有用的信息,表11给出了例3ei?Yi?Y的10个残差,利用残差可以提供如下信息:

表11预报和残差表

?i ?i No. ?i ?i No. Yi?YYi?YYY1 29.90 -1.30 6 45.21 -0.21 2 21.00 -1.70 7 26.81 2.39 3 40.71 -0.21 8 32.60 1.50 4 35.99 -0.39 9 45.76 0.94 5 50.08 -1.18 10 36.92 0.48

(i)σ之估计

11n2???S??e (2.11) n?2残n?2i?1i?给出了回归方程的精度,它称为残差标准差,若随机误差遵从正态???2??之内的概率大约为95%,对分布N(0,?2),则Y的预报落在Y?i?2×1.416之内。 ?=1.416,且10个Yi均落于Y例3可以算得? (ii)数据和模型之诊断

由残差之大小,可以发现异常(或叫离群)数据,可以发现模型(2.1)是否合适,是否要用非线性回归模型等,这些已形成一整套理论,称为回归诊断,有兴趣的读者可参见文献[31]。

第二章 回归分析简介及其在均匀设计中的应用 共12页 28

2.2多元线性回归模型

当影响因变量Y的自变量不止一个时,比如有m个X1,…,Xm,这时Y和X之间的线性回归方程为

Y????1X1????mXm?? (2.12)

其中?,?1,?,?m为回归系数,ε为随机误差,常假定 ?~N?0,?2? 。 设??Yi,Xi1,?,Xim?,i?1,?,n?为观测值,回归分析的首要任务是利用

?.求它们来估计?,?1,?,?m和σ,它们的最小二乘估计记作a,b1,?,bm,?估计值b1,?,bm 需要解下面的线性方程组

?L11b1???L1Mbm?L1Y?Lb???Lb?L?2112mm2Y (2.13) ??????Lm1b1???Lmmbm?LmY其中

1nXj??Xkj,j?1,?,mnk?11nY??Yknk?1Lij???Xki?Xi??Xkj?Xj?,i,j?1,?,mk?1Nn

LiY???Xki?Xi??Yk?Y?,i?1,?,mK?1当b1,?,bm 求得后,计算

a?Y?b1X1???bmXm (2.14)

回归方程(2.12)建立后,检验其是否可信可用方差分析,这时公式(2.8)依然有效,但

?i?a?b1Xi1???bmXim,i?1,?,n Y方差分析表(参看表10)将成为表12之形式,其中

F?S回S回mn?m?1S回? (2.15)

(n?m?1)mS残

方差来源 平方和 表12方差分析表 自由度 均方 F 显著性 29

第二章 回归分析简介及其在均匀设计中的应用 共12页

回归 残差 总和 S回 S残 LYY m n-m-1 n-1 S残/(n?m?1) S回/m

它将与F的临界值Fm,n?m?1(?)来比较,其比较的结果和结论请参见上节的讨论,反映回归精度的σ的估计公式为

???1S (2.16)

n?m?1残 类似于一元回归相产系数r,可以定义适用于多元回归的全关系

?数R,R定义)为Yi和Yi的相关系数,或R2定义为

R2?1?S残S回 (2.17) ?LYYLYY 例4 试用线性回归模型(2.10)来拟合表9的试验数据。

解:这时n=7,7组观察值为(0.330,1.0,13,1.5),(0.336,1.4,19,3.0),… (0.482,3.4,28,3.5),它们的均值和Lij为

X?2.2, X2?19, X3?2.0, Y?0.3683 L11?4.48, L12?16.8, L13?1.4, L1Y?0.2404 L22?252.0, L23?10.5, L2Y?0.5640 L33?7.0, L3Y?0.5245

由于Lij?Lji,故它们不必全部列出,将它们代入到方程级(2.13)中可以解得

b1?0037.,b2??000343.,b3?0077. 从而

a=0.3683-0.037×2.2+0.00343 ×19-0.077×2.0 =0.201

?..于是回归方程为 σ的估计为??007?Y?0201.?0037.X1?000343.X2?00077.X3 (2.18) 进一步对它作方差分析,其方差分析表列于表13.

表13方差分析表 F 方差来源 自由度 平方和 均方 3 0.048770 0.016257 3.29 回归 3 0.014838 0.004946 误差 6 0.063608 总和

当 α=0.05 时F表的临界值Fm,n?m?1(?)?F3,3(005回归.)?928.?F?329.,方程(2.18)不可信.这时,是否Y和三个因素之间不可能建立回归关系呢?不是的,我们还应作进一步探讨,在下节我们将继续讨论该例。

第二章 回归分析简介及其在均匀设计中的应用 共12页

30

2.3二次型回归模型与变量筛选

由于因变量常常有交互作用,回归模型(2.12)不足以反映实际,于是二次型回归模型常常为人们所采用.若有m个因素X1,?,Xm,则二次型回归模型为

Y??0???iXi???iiXi2???ijXiXj?? (2.19)

i?1i?1i?jmm其中?0,{?i},{?ii},{?ij}为回归系数,ε为随机误差.我们看到,这时除了常数项?0 以外,方程有m(m+3)/2 项,当m=1,2,… 时项数为 m 1 2 3 4 5 6 7 8 9 10 5 9 14 20 27 35 44 54 65 项数 2 若使回归系数的估计有可能,必要条件为n>1+m(m+3)/2.当m 较大时,通常不能满足这个必要条件.于是有必要从方程(2.19)中选择贡献显著的项,删除不重要的项.有时,实际问题需要考虑高阶的交互作用,如XiXjXk,Xi2Xi,Xi2X2j 等,这时筛选变量的任务就更为重要.在回归分析中,有许多有效的筛选变量的技术,如a) 前进法,b) 后退法,c) 逐步回归法,d) 最优子集法(参看[25])。本章仅仅采用逐步回归技术来筛选变量,这并不意味着逐步因归在上述四项技术中最好的。

逐步回归是回归分析中的一种筛选变量的技术.开始它将贡献最大的一个变量选入回归方程,并且预先确定两个阈值Fin 和Fout ,用于决定变量能否入选或剔除.逐步回归在每一步有三种可能的功能: a) 将一个新变量引进回归模型,这时相应的F统计量必须大于Fin

b) 将一个变量从回归模型中剔除,这时相应的F统计量必须小于Fout

c) 将回归模型内的一个变量和回归模型外的一个变量交换位臵。

执行功能a)和b)时要注意如下原则:

设在当前步骤中有s个变量不在回归模型中,有t个变量在回归模型中.今欲从s个变量中挑选一个加入回归模型之中,显然应挑选使回归效果最好的变量.这里回归的效果可用方差分析表(见表10,表13)中F值来衡量,显然我们要从s个变量中挑选一个变量使F值达到极大.类似地,若欲从t 个变量中删除一个变量使其离开回归模型,我们就是要选择删除后使回归效果最好的变量,或选择对当前回归模型贡献最小的变量.如果在某一步中,既能实现a)又能实现b),两者之和就是功能c)。大部分统计软件包均有逐步回归之功能,例如中国

第二章 回归分析简介及其在均匀设计中的应用 共12页

31

均匀设计学会推荐的软件包。

现在我们对例4继续进行讨论.设先用后退法来选变量.所谓后退法,就是开始将所有的变量全部采用,然后逐步剔除对方程没有显著贡献的变量,直到方程中所有的变量都有显著贡献为止。

仍考虑线性模型,开始三个因素全部进入方程,得(2.18).统计软件包通常还会提供每个变量的t值,t值越大(按绝对值计)表示该因素越重要.对例2有 t0?0204.,t1?096.,t2??067.,t3?277.

这表明三个因素中以X3(反应时间)对得率(Y)影响最大,配比次之,吡啶量最小.这些t 值都是随机变量,它们遵从tn?m?1分布.若取α=0.05 ,这时n=7,m=3, tn?m?1=t3 的临界值t3(0.05)=3.18.t 值大于该值的因素表示对方程有显著贡献,否则表示不显著.今t1,t2,t3 均小于t3(0.05)=3.18 ,说明回归方程(2.18)的三个变量至少有一个不起显著作用.于是我们将贡献最小的X2删去,重新建立Y和X1及X3的线性回归方程,得 ?Y?0169.?00251.X1?00742.X3 (2.20) ?2,三个t 值分别为t0?212?2?006526..,t1?079.,t3?291.,这时这三个t值

遵从含四个自由度的t 分布,临界值为t4(0.05)=2.78,从而X1 应从方程中剔除.然后对Y和X3建立回归方程 ?Y?02141.?0079.X3 (2.21)

?相应的t3?334.?t5(005.)?257.,??0063..因此,回归方程(2.21)为“最终”的回归模型.这里最终加上引号,表示并非真正的最终模型,而是在线性模型框架下的最终产物。

上述的分析只发现X3对Y有显著作用,其它两个因素均没有显著作用,该结论与实际经验不吻合,因此,猜想用线性模型不一定符合实际.于是进一步考试二次回归模型(2.19).这时方程中有9项(不算?0).利用逐步回归技术求得回归方程如下: ?2Y?006232.?0251.X3?006.X3?00235.X1X3 (2.22)

?.,R2?97.77 。其相应的??00217显然,回归方程(2.22)的效果优于回归

方程(2.21).方程(2.22)表明,因素X3和交互作用X1?X3对Y有显著的影响.值得注意的是,有些人对回归分析没有足够的理解,片面追求

?大的R2(或小的?),致使选进方程中的项过多,使误差自由度为1或甚至为0,这时有关的结可靠性是很差的.因此,不应片面追求大的R2,应选择n 稍大的均匀设计表,使得误差有足够的自由度≥5。

2.4应用实例

均匀设计和正交设计以及其他试验设计方法一样,在工农业生产

第二章 回归分析简介及其在均匀设计中的应用 共12页

32

和科学实验中有广阔的应用前景,本文的文献中列举了部分应用成果,其中有些成果成绩显著.更多的成果有待搜集.均匀设计不但在国内得到广泛应用,在彼得格勒和香港也已开花结果.本节选择香港浸会学院生物系的一项试验,供读者参考。 例5 为了研究环境污染对人体的危害,今考核六种金属的含量:镉(Cd),铜(Cu),锌(Zn),镍(Ni),铬(Cr),铅(Pb),每种金属含量分别取了17个水平(百万分之一,ppm):0.01,0.05,0.1,0.2,0.4,0.8,1,2,4,5,8,10,12,14,16,18,20.今欲考虑这些金属含量(包括它们的交互作用)对老鼠寿命的影响,该试验考核老鼠身上某种细胞的死亡率.它们选用U17(1716)表,根据使用表的指示,它们选用了表中1,4,6,10,14,15列来安排六个因素,其试验方案如表14所示.试验的结果为死亡率.为了了解试验误差,提高结论的精度,他们在同一试验条件下将试验重复三次,三次结果(Y1,Y2,Y3)列于表15,三次死亡率的均值为Y,列于表15的最后一列.我们看到第17号试验的死亡率为最高,因为这时六种金属都是最高含量,表明这些金属对老鼠细胞确有致命作用。

现进一步用回归分析来分析数据.由于每种金属的含量由0.01(ppm)变到20(ppm),最大得出小相差2000倍,于是直接用各因素的水平值作回归不易获得好的结果,通常要对水平值先作变换,用变换后的数据进行回归.最常见的变换是取对数.于是回归分析中的自变量成为logCd,logCu,logZn,logNi,logCr 和logPb.根据以往经验,知道六种金属间有交作用,故应选用二次型回归模型,并用逐步回归来筛选变量.用同样的Fin 和Fout ,对Y1,Y2,Y3

表14 环保试验方案 No Cd Cu Zn Ni Cr Pb 1 0.01 0.2 0.8 5.0 14.0 16.0 2 0.05 2.0 10.0 0.1 8.0 12.0 3 0.1 10.0 0.01 12.0 2.0 8.0 4 0.2 18.0 1.0 0.8 0.4 4.0 5 0.4 0.1 12.0 18.0 0.05 1.0 6 0.8 1.0 0.05 4.0 18.0 0.4 7 1.0 8.0 2.0 0.05 12.0 0.1 8 2.0 16.0 14.0 10.0 5.0 0.01 9 4.0 0.05 0.1 0.4 1.0 18.0 10 5.0 0.8 4.0 16.0 0.2 14.0 11 8.0 5.0 16.0 2.0 0.01 10.0 12 10.0 14.0 0.2 0.01 16.0 5.0 13 12.0 0.01 5.0 8.0 10.0 2.0 14 14.0 0.4 18.0 0.2 4.0 0.8 第二章 回归分析简介及其在均匀设计中的应用 共12页

33

15 16 17 16.0 18.0 20.0 4.0 12.0 20.0 0.4 8.0 20.0 14.0 1.0 20.0 0.8 0.1 20.0 0.2 0.02 20.0

?分别进行逐步回归,发现四组数据的结果非常吻合,表明试验 和Y?误差不大,该试验可以获得可靠结论。为节省篇幅,我们仅列出对Y的回归方程

?=32.68+5.03LogCd+3.84LogCu+2.03LogNi Y +0.55(LogCu)2-0.63(LogZn)2+0.94(LogNi)2 +0.53(LogCd)(LogCu)-0.70(LogCd)(LogCr) +0.92(LogCu)(LogPb)

方程中每一项的t 值分别为(常数项t 值未列)11.5,7.8,4.9,2.6,-3.4,4.1,2.4,-2.8,5.3,它们均遵从t7 分布,因t7(0.05)=2.365 小于上述所有t值之绝对值,故方程可信。

表15死亡率

Y1 Y2 Y3 Y 17.95 17.65 18.33 17.9 22.09 22.85 22.62 22.5 31.74 32.79 32.87 32.4 39.37 40.65 37.87 39.3 31.90 31.18 33.75 32.2 31.14 30.66 31.18 31.0 39.81 39.61 40.80 40.0 42.48 41.86 43.79 42.7 24.97 24.65 25.05 24.8 50.29 51.22 50.54 50.6 60.71 60.43 59.69 60.2 67.01 71.99 67.12 68.7 32.77 30.86 33.70 32.4 29.94 28.68 30.66 29.7 67.87 69.25 67.04 68.0 55.56 55.28 56.52 55.7 79.57 79.43 78.48 79.1

由方程我们可以给出如下结论:a)Cd,Cu 和Ni含量过高,对老鼠细胞的死亡率有显著作用,b)金属Cd和Cu,Cd和Cr,Cu和Pb有交互作用,其中Cd和Cu,Cu和Pb对死亡率起正交互作用,而Cd和Cu对死亡率起负交互作用,c)Zn可能会中和其它金属的破坏作用,降低老鼠细胞的死亡率,有兴趣的读者可以作更为详尽的分析。

第二章 回归分析简介及其在均匀设计中的应用 共12页

34

2.5寻求最优工艺条件

试验设计的目的通常主要有二个,一是揭示变量(Y)与各因素之间的定性关系,二是寻求最优工艺条件,回归方程的建立可以达到一箭双雕的目的。

现以例2来说明如何寻求最好的工艺条件,表9告诉我们,第7号试验是7次试验中最好工艺条件,即配比3.4,吡啶量28,反应时间3.5 ,这个工艺条件和最优工艺条件常常是很接近的。 在上述讨论中,我们最终建立了回归模型(2.22)。该方程一般仅在试验范围内成立,即配比1.0-3.4,吡啶量10-28,反应时间0.5-3.5。

?的极大值。如寻求最优模型等价于在这个范围内求方程(2.22)中Y果回归方程比较复杂,可以用任何一个优化算法(参见文献[33,34])来求最佳工艺条件,许多软件包都含有优化算法。数论方法也可以用

?的极大值,方开泰和王元提出了一个序贯算法SNTO,可以方来求Y?的极大值,鉴于篇幅,这里就不详细介绍了,有兴趣的读便地求得Y者可以参看文献[16]。

对例2来讲,可以用简单的微积分求得极值,由于X在试验范

?越高,故X1应取试验范围内围内恒正,故由(2.22)知X 1越大,Y极大值3.4。将X1=3.4 代入(2.22)得

2??0.06232?0.3309X3?0.06X3 Y?/?X3?0,解得0.3309-0.12X3=0,X3=2.7575,这时Y?的极大值令?Y为51.85%。工艺条件X1=3.4,X3=2.7575 并未出现在原有试验方案中,故应在这个条件追加试验,由于X1的最佳条件在试验范围边界,故应扩大试验范围。

对于许多实际工作者,不一定熟悉优化方法,手边没有优化的软件。他们也不一定知道SNTO,也可能不会用微积分去求解极值。下面介绍一种“笨”办法,其计算量较大,但程序好编。这种方法将每

?值,从而可以近个因素的试验范围均匀打网格,比较这些网格上的Y?的近似最大(或最小)值。 似求得Y现仍以例2来说明,将X1在区间[1.0,3.4]每0.1划一个点,X3在[0.5,3.5]区间中也是每0.1划一个点,这样X1 和X3 将范围划成25

?值,并求出775个Y?× 31=775个网格点,在其上按(2.22)来计算Y?=0.5184,在X=3.4,X=2.8处达到,和上中最大者。经计算量大的Y13面用微积分的方法求得的结果 很接近,如果我们在X1=3.4,X3=2.8 附近继续搜索,将网格打细,其解可以更接近真正解X1=3.4,X3=2.7575。

35

?第二章 回归分析简介及其在均匀设计中的应用 共12页

第三章 均匀设计表的构造和运用

本章介绍均匀设计表的构造和使用表的来源,其中均匀性度量──偏差将起关键作用,我们将介绍偏差的定义,并给出正交设计与均匀设计各自偏差的比较,从中可以了解为什么均匀设计可以比正交设计节省试验次数,本章还介绍拟水平在均匀设计中的使用和有关表的构造,熟悉本章内容对于正确理解和使用均匀设计有很大帮助。 3.1 均匀设计表的构造

定义1 每一个均匀设计表是一个方阵,设方阵有n行m列,每一行是{1,2,...,n}的一个臵换(即1,2,…,n的重新排列),表的第一行是{1,2,…,n}的一个子集,但不一定是真子集。

444 显然,第一章表4-6列举的U*(6),U(7)和U*67(7)都符7合上述定义。

符合定义1的均匀设计表数量太多,本节仅介绍用好格子点法(good lattice point)构造的均匀设计表,其方法如下:

1) 给定试验数n,寻找比n小的整数h,且使n和h的最大公约数为1。符合这些条件的正整数组成一个向量h=(h1,…,hm )。 2) 均匀设计表的第j列下法生成

uij?ihi[mod n] (3.1)

这里[mod n] 表示同余运算,若jhi超过n,则用它减去n的一个适当倍数,使差落在[1,n] 之中。Uij可以递推来生成 u1j?hj

若uij?hj?n??uij?hj ui?1,j?? (3.2)

u?h?n若uij?hj?n?j?ij i?1,?,n?1

例如,当n=9 时,符合条件1)的h有1,2,4,5,7,8;而h=3 或h=6 时不符合条件1),因为最大公约数(3,9)=3 ,(6,9)=3,均大于1.所以U9最多只可能有6列,又如当h3?4时,用公式 (3.2) 来生成该列时其结果依次如下:

第三章均匀设计表的构造和运用 共13页 36

u13?4,u23?4?4?8,u33?8?4?12?3(mod9)u?3?4?7,u53?7?4?11?2(mod9) 43

u63?2?4?6,u73?6?4?10?1(mod9)u83?1?4?5,u93?5?9其结果列于表16的第三列。

表16 U9(96) 1 2 3 4 5 6 1 1 2 4 5 7 8 2 2 4 8 1 5 7 3 3 6 3 6 3 6 4 4 8 7 2 1 5 5 5 1 2 7 8 4 6 6 3 6 3 6 3 7 7 5 1 8 4 2 8 8 7 5 4 2 1 9 9 9 9 9 9 9 用上述步骤生成的均匀设计表记作Un(nm) ,向量h称为该表的生成向量,有时为了强调h 的作用,可将Un(nm) 记成Un(h). 给定n ,相应的h 可以象上例那样方便地求得,从而m 也就确定.所以m 是n 的一个函数,这个函数曾由大数学家欧拉研究过,称为欧拉函数,记为E(n) .这个函数告诉我们均匀设计表最多可能有多少列.下面的结果来自数论:

i)当n为素数时 ,E(n-1)=n-1所谓素数就是一个正整数,它与其所有比它小的正整数的最大公约数均为1.如2,3,4,5,11,13,…均为素数。 ii)当n 为素数幂时,即n 可表成n=pl ,这里p为素数l,l为正整数,这时

1E(n)?n(1?) (3.3)

p例如n=9 可表为n?32 ,于是

1E(9)?9(1?)?6

3即U9至多可以有6列。

iii)若n 不属于上述两种情形,这时n一定可以表为不同素数的方幂积,即

lln?p1p2?psl (3.4)

这里 p1,?,ps 为不同的素数,l1,?,ls 为正整数,这时

12s11E(n)?n(1?)…(1?) (3.5)

pps第三章均匀设计表的构造和运用 共13页

37

例如n=12 可表为n=22?3 ,于是

11E(12)?12(1?)(1?)?4

23即U12 最多只可能有4列。

上述三种情形中,以素数情形为最好,我们最多可以获得n-1列,而非素数情形,在上述表的结构中永远不可能有n-1 列,例如n=6=21?31 ,此时E(6)?6(1?)(1?)?2,这说明,当n=6 时,用上述办法生成的均匀设计表只有2列,即最多只能安排两个因素,这是太少了,为此,王元,方开泰(1981)建议,可将 U7(76) 表的最后一行去掉来构造U6 ,为了区别于由(3.2) 生成的均匀设计表,我们

*6*U(6记它为 6) ,在U 的右上角加一个“*”号,表U6(66)列于表17,

对照表16我们看到U 表和U*表之间的关系和各自特点:

* i)所有的Un表是由Un?1 表中划去最后一行而获得;

*ii)Un表的最后一行全部由水平n 组成,Un表的最后一行则不然。若每个因素的水平都是由低到高排列,Un表中最后一号

*(66) 表17 U61213No. 1 2 3 4 5 6 1 1 2 3 4 5 6 2 2 4 6 1 3 5 3 3 6 2 5 1 4 4 4 1 5 2 6 3 5 5 3 1 6 4 2 6 6 5 4 3 2 1 试验将是所有最高水平相组合,在有些试验中,例如在化工试验中,所有最高水平组合在一起可能使反应过分剧烈,甚至爆炸。反之,若每个因素的水平都是由高到低排列,则Un 表中最后一号试验将是所有低水平的组合,有时也会出现反常现象,甚至化学反应不能进行。*表则没有类似现象,比较容易安排试验。 Un* iii)若n 为偶数,Un 表比Un表有更多的列。如上面讨论过的

*表可以有6列。 U6表只有2列,而Un* iv)若n 为奇数,则Un表列数通常少于Un表。

** v)Un表比Un表有更好的均匀性,应优先采用 Un表,其细节将在下节讨论。

* vi)若将Un或Un的元素组成一个矩阵的秩最多分别为

E(n)?1 2及

E(n?1)?1。 2* 本书附录I,列出了2≤s≤7,5≤n≤31,及n=37的Un表或Un表,

第三章均匀设计表的构造和运用 共13页 38

供使用时选择,为了节省篇幅,凡使用表中没有推荐的列我们就没有列出。

3.2 均匀性准则和使用表的产生

在第一章1.6 节我们曾指出均匀设计在使用时由于选择的列不同,试验的效果也大不相同,于是建议读者按使用表的推荐去选列,那么使用表又是如何产生的呢?设我们要从均匀设计表Un(nm)中选出s 列,则可能的选择有(ms)种可能,我们要从中选择一个最好的,这里必须对“好”和“坏”有明确的含义,表Un(nm)是由它的生成向量h?(h1,?,hm)所唯一确定的,选择s列,本质上就是从h 中选择s 个h1,?,hm,由这s个数生成的均匀设计表为Un(hi,?,hi),这是一个n×s 矩阵。它的每一行是s维空间Rs中的一个点,故n行对应Rs中的n个点,若这n个点在试验范围内均匀,则试验效果好,否则试验效果不好。因此,比较两个均匀设计表Un(hi1,?,his) 和Un(hj1,?,hjs) 的好坏等价于比较由它们所对应的两组点集的均匀性。于是我们必须给出均匀性度量。

度量均匀性准则很多,其中偏差(discrepancy) 是使用历史最久,为公众所广泛接受的准则,我们先给出它的定义。 设Un(nm) 是一个均匀设计表,若把它的每一行看成m 维空间的一个点,则Un(nm) 给出了n个试验点,这些点的坐标由{1,2,…,n} 组成,用线性变换将{1, …,n} 均匀地变到(0,1)之间如下:

2i?1,i?12,,?,n 2n若用qki表示Un(nm)中的元素,则上面的变换等价于令

2qki?1xki?,i?1,?,m,k?1,?n (3.6) 2nxk?(xk1,?,xkm),k?1,?,ni?

于是n 个试验点变换成[01,]m?Cm中的n个点:x1,?,xn.考虑原n个试验点的均匀性,等价于考核x1,?,xn在Cm的均匀性。

定义2 设x1,?,xn为Cm中的n 个点,任一向量x?(x1,?,xm)?Cm,记v(x)?x1?xm为矩形[0,x]的体积,nx为x1?xn 中落入[0,x]的点数,则

nx?v?x? (3.7) mnx?C称为点集{x1,?,xn}在Cm中的偏差(discrepancy)。 D(x1,?,xn)?sup 为什么偏差可以用于度量点集散布的均匀性呢?若n个点

则nx/n 表示有多少比例的点落在矩形[0,x]x1,?,xn在Cm中散布均匀,

中,它应当和该矩形的体积v(x)相差不会太远。

第三章均匀设计表的构造和运用 共13页

39

如果用统计学的语言来解释偏差,令

1nFn(x)??I{xk?x} (3.8)

nk?1表示的{x1,?,xn}经验分布函数,式中I{.}为示性函数,令F(x)为 Cm上

均匀分布的分布函数,于是(3.7) 定义的偏差可表为 D(x1,?,xn)?supFn?x??F?x? (3.9)

x?Rm偏差实际上就是在分布拟合检验中的Kolmogorov-Smirnov统计量,它给出了经验和理论分布之间的偏差。

在Cm中任给n个点x1,?,xn,如何计算它们的偏差对均匀设计表的构造十分重要.长期以来,一直没有人担出一个实用的算法.当我们在1978年提出均匀设计时,我们只好把偏差展开成级数,取其首项,给出近似偏差的准则.我们的方法方便计算,但有时有大的偏差,而且只适用于好格子点法构造的均匀设计,不能计算正交设计等其它方法所产生试验点的偏差,最近Bundschuh和Zhu(朱尧辰)[17] 给出了计算偏差的算法,当因素数不太多时,他们的算法可以精确地求出任何点集的偏差.我们已用MATLAB编出有关的程序,本书中的计算,都是用该程序获得的。

设我们要从均匀设计表Un(nm)中选出s列,使其相应的均匀设计有最小的偏差.当m和s较大时,由m 列中取出s列的数目有(ms)之多,要比较这么多组点集的均匀性工作量很大.于是需要有简化计算和近似求解的方法.详细讨论可参看方开泰[2],方开泰、郑胡灵[12]等.这里仅仅介绍利用整数的同余幂来产生hi,?,hi的办法。

令a为小于n的整数,且a,a2(mod n),…,at(mod n)互不相同,at+1=1(mod n),则称a对n的次数为t,例如

21?2,22?4,23?3,24?1 (mod 5) 则2对5的次数为3.又如

31?3,32?9,33?5,34?4,35?1 (mod 9) 表示3对9的次数为4.一般若a对n 的次数大于或等于s-1,且(a,n)=1,则可用

(a0,a,?,as?1) (mod n) (3.10)

作为生成向量,故a称为均匀设计的生成元.然后在一切可能的a(最多n-1个)中去比较相应试验点的均匀性,工作量则大大减少.理论和实践证明,这种方法获得的均匀设计使用表仍能保证设计的均匀性.于是,给定n 和s ,只要求得最优的a, 便可获得生成向量,从而获得相应的均匀设计表。

表18对奇数n(5≤n≤31,n=37)给出了Un表的生成元及其相应均

*匀设计的偏差.同时对偶数n(6≤n≤30)给出了Un表的生成元和相应

1s第三章均匀设计表的构造和运用 共13页 40

*的偏差.类似地,对奇数n,我们也获得Un表的生成向量和相应均匀设计表的偏差(表19).表18和19的结果取自Fang and Li[14].综合两个表的结果,我们有如下的说明。

* i)对奇数n, Un 表比Un表有更好的均匀性,例如n=15,s=4

*时,U15(154)的偏差为D=0.2772,而U15(154)的偏差为D=0.1511,后者比前者相对降低了

02772.?01511.?4549%.

02772.表19中p%一列给出了所有情形偏差降低的百分比.为了直观起见,

我们将表18和表19的偏差点成图11.我们按s=2,3,4,5分成四个图.图中“+”表示奇数n的Un表的偏差,“*”表示偶数

*表18Un和Un的生成元和相应设计的偏差

n 2 3 4 5 6 7 5 2(.3100) 2(.4570) 6 3(.1875) 3(.2656) 3(.2990) 7 3(.2398) 3(.3721) 3(.4760) 8 4(.1445) 4(.2000) 2(.2709) 9 4(.1944) 4(.3102) 2(.4066) 10 7(.1125) 7(.1681) 5(.2236) 5(.2414) 7(.2994) 11 7(.1634) 7(.2649) 7(.3528) 7(.4286) 7(.4942) 12 5(.1163) 6(.1838) 6(.2233) 4(.2272) 6(.2670) 6(.2768) 13 5(.1405) 6(.2308) 6(.3107) 6(.3814) 6(.4439) 6(.4992) 14 11(.0957) 7(.1455) 7(.2091) 15 11(.1233) 7(.2043) 7(.2772) 16 10(.0908) 5(.1262) 5(.1705) 5(.2070) 10(.2518) 2(.2769) 17 11(.1099) 10(.1832) 10(.2501) 10(.3111) 10(.3667) 10(.4174) 18 8(.0779) 9(.1394) 9(.1754) 4(.2047) 3(.2245) 9(.2247) 19 8(.0990) 8(.1660) 14(.2277) 14(.2845) 14(.3368) 14(.3850) 20 13(.0947) 5(.1363) 10(.1915) 10(.2012) 10(.2010) 21 13(.0947) 10(.1581) 10(.2089) 10(.2620) 10(.3113) 22 9(.0677) 17(.1108) 17(.1392) 17(.1827) 17(.1930) 11(.2195) 23 17(.0827) 15(.1397) 17(.1930) 11(.2428) 17(.2893) 11(.3328) 24 11(.0586) 6(.1031) 6(.1441) 12(.1758) 12(.2064) 12(.2198) 25 11(.0764) 11(.1294) 11(.1793) 11(.2261) 4(.2701) 9(.3115) 26 16(.0588) 10(.1136) 5(.1311) 5(.1683) 16(.1828) 5(.1967) 27 20(.0710) 20(.1205) 20(.1673) 20(.2115) 16(.2533) 16(.2927) 28 18(.0545) 7(.0935) 7(.1074) 16(.1381) 7(.1578) 7(.1550) 29 23(.0663) 9(.1128) 7(.1596) 16(.1987) 16(.2384) 16(.2760) 30 22(.0519) 22(.0888) 18(.1325) 18(.1465) 18(.1621) 11(.1924) 31 14(.0622) 12(.1060) 22(.1477) 12(.1874) 12(.2251) 22(.2611) 37 17(.0524) 23(.0931)_ 17(.1255) 7(.1599) 7(.1929) 7(.2245) 第三章均匀设计表的构造和运用 共13页

41

*表19 奇数n的Un表的生成向量和相应设计的偏差 n s D 生成向量 7 2 (1,5) 0.1582

3 (3,5,7) 0.2132

9 2 (1,3) 0.1574

3 (3,7,9) 0.1980

11 2 (1,5) 0.1136

3 (5,7,11) 0.2307

13 2 (1,9) 0.0962

3 (1,9,11) 0.1442 4 (1,5,9,11) 0.2076

15 2 (1,7) 0.0833

3 (1,5,13) 0.1361 4 (1,5,9,13) 0.1511 5 (5,7,9,11,15) 0.2090

17 2 (1,7) 0.0856

3 (1,7,13) 0.1331 4 (7,11,13,17) 0.1785

19 2 (1,9) 0.0755

3 (1,3,11) 0.1372 4 (1,3,7,11) 0.1807 5 (7,9,11,13,19) 0.1897

21 2 (1,13) 0.0679

3 (1,7,9) 0.1121 4 (1,5,7,13) 0.1381 5 (1,9,13,17,19) 0.1759

23 2 (1,17) 0.0638

3 (11,17,19) 0.1029 4 (1,7,13,19) 0.1310 5 (11,13,17,19,23) 0.1691

25 2 (1,11) 0.0588

3 (3,5,25) 0.0975 4 (5,7,9,25) 0.1210 5 (11,15,17,19,21) 0.1532

27 2 (1,11) 0.0600

3 (1,9,15) 0.1009 4 (1,11,15,25) 0.1189 5 (5,13,17,19,27) 0.1378

29 2 (1,19) 0.0520

3 (1,17,19) 0.0914 4 (1,17,19,23) 0.1050

p%

34.03 42.70 19.03 36.17 30.39 12.91 31.53 37.52 33.18 32.44 33.38 45.49 24.60 22.11 27.35 28.63 23.74 17.35 20.64 33.32 28.30 29.10 33.89 32.86 29.62 26.34 32.12 30.35 23.04 24.65 32.52 32.24 15.49 16.27 28.93 34.85 16.27 18.97 34.21

42

第三章均匀设计表的构造和运用 共13页

31

5 2 3 4 5 (13,17,19,23,2)

(1,9) (1,9,19) (3,13,21,27) (5,9,11,17,19) 0.1730 0.0554 0.0908 0.1100 0.1431 12.93 10.93 14.34 25.52 23.64

***表的偏差,“0”为奇数n的Un表的偏差。由四个图中也明显看到UnUn表有更好的均匀性。

* ii) 若n固定,当s增大时,Un表(或Un表)的偏差也随之增大。

*若s固定,Un表的偏差随n的增大而减小。而Un表的偏差一般也随n的增大而减少,但有少数例外,其原因是它们的Un?1表的可能列数E(n+1)不太多,由其中选择s的可能组合也不多,从而最小偏差相对偏大。

* iii)表18列举的Un 和Un 是由生成元方法生成的,其生成向量

*具有(3.10)的结构,而表19的Un是考虑从Un?1表中选出s列的一切可能的组合,所以生成向量中不一定包含1,当然也不具有(3.10)的结构。

* 为了使用者的方便,我已将表18和表19的结果用Un(或Un)表及其使用表形式列于本书附录I。所以,读者可以对照附录I的诸表和表18,19来加强对均匀设计表构造的理解。由于在大部分情形下,

*因素数≤7,故附录公仅给出s≤7的使用表,并且删去Un(或Un)表中没有用到的列。

值得指出的是,均匀性度量的方法很多,最初王元,方开泰[3]提出了近似偏差(discrepancy)的均匀性准则,利用这个准则,他们给出了n≤31的使用表。丁元[5]利用最优试验设计理论中的A-最优和D-最优准则,给出了相应的使用表,类似于丁元的思想,张学中[23]用设

第三章均匀设计表的构造和运用 共13页

43

计矩阵的条件数作为均匀性指标,并且对n≤31及n=53用多种准则给出了使用表,蒋声和陈瑞琛[6,7]从几何的观点提出了体积距离的度量。方开泰和郑胡灵[12]也是从几何的角度建议用最大对称差的条件来度

量均匀性,并提出均匀性度量必须要满足的条件,方开泰和张金廷[11]总结是纳了各种均匀性准则,系统地讨论了它们的关系和比较它们的优劣,最终推荐了由设计矩阵所诱导矩阵的特征的方差作为均匀性标准,并且也给出了n≤31的使用表。 3.3 混合水平的均匀设计表

由于实际情况千变万化,在应用均匀设计时会面临许多新情况,需要灵活加以应用。本文所列举的文献中,不少作者有许多巧妙的应用和建议,很值得参考。如王鹏等[21]在文中建议:a)均匀设计与调优方法共用;b)分组试验;c)拟水平法。本节仅介绍拟水平法在均匀设计法中的应用。若在一个试验中,有二个因素A和B为三水平,一个因素C为二水平。分别记它们的水平为A1,A2,A3,B1,B2,B3和C1,C2。这个试验可以用正交表L18(2?37)来安排,这等价于全面试验,并且不可能找到比L18更小的正交表来安排这个试验。是否可以用均匀设计来安排这个试验呢?直接运用是有困难的,这就要运用拟水平的技

*术。若我们选用均匀设计表U6(66),按使用表的推荐用1,2,3前3列。若将A和B放在前两列,C放在第3列,并将前两列的水平合并:{1,2}?1,{3,4}?2,{5,6}?3。同时将第3列水平合并为二水平:{1,2,3}?1,{4,5,6}?2,于是得设计表(表20)。这是一个混合水平的设计表U6(32?21)。这个表有很好的均衡性,例如,A列和C列,B列和C列的

表20 拟水平设计U6(32?21) No A B C 1 (1)1 (2)1 (3)1 2 (2)1 (4)2 (6)2 3 (3)2 (6)3 (2)1 4 (4)2 (1)1 (5)2 5 (5)3 (3)2 (1)1 6 (6)3 (5)3 (3)2 二因素设计正好组成它们的全面试验方案,A列和B列的二因素设计中没有重复试验。可惜的是并不是每一次作拟水平设计都能这么好。例如我们要安排一个二因素(A,B)五水平和一因素(C)二水平的试验。这项试验若用正交设计,可用L50表,但试验次数太多。若用

*均匀设计来安排,可用U10(1010)。由使用表指示选用1,5,7三列。对1,5列采用水平合并{1,2}?1,…,{9,10}?5;对7列采用水平合并

第三章均匀设计表的构造和运用 共13页

44

{1,2,3,4,5}?1,{6,7,8,9,10}?2,于是得表21的方案。这个方案中A和C的两列,有二个(2,2),但没有(2,1),有二个(4,1),但没有(4,2),因此均衡性不好。

表21 拟水平设计U10(52?21) No A B C 1 (1)1 (5)3 (7)2 2 (2)1 (10)5 (3)1 3 (3)2 (4)2 (10)2 4 (4)2 (9)5 (6)2 5 (5)3 (3)2 (2)1 6 (6)3 (8)4 (9)2 7 (7)4 (2)1 (5)1 8 (8)4 (7)4 (1)1 9 (9)5 (1)1 (8)2 10 (10)5 (6)3 (4)1

表22 拟水平设计U10(52?2) No A B C 1 (1)1 (2)1 (5)1 2 (2)1 (4)2 (10)2 3 (3)2 (6)3 (4)1 4 (4)2 (8)4 (9)2 5 (5)3 (10)5 (3)1 6 (6)3 (1)1 (8)2 7 (7)4 (3)2 (2)1 8 (8)4 (5)3 (7)2 9 (9)5 (7)4 (1)1 10 (10)5 (9)5 (6)2 *若选用U10(1010)的1,2,5三列,用同样的拟水平技术,便可获得表*22列举的U10(52?2)表,它有较好的均衡性。由于U10(1010)表有10列,我们希望从中选择三列,由该三列生成的混和水平表U10(52?2)既有好的均衡性,又使偏差尽可能地小,经过计算发现,表22给出的表具有偏差D=0.3925,达到了最小。

本书附录II给出了一批用拟水平技术而生成的混合水平的均匀设计表,由于篇幅所限,我们的表难免挂一漏万,读者若有需要,可直接和我们联络,我们乐意协助你们计算所需的混合水平表。

第三章均匀设计表的构造和运用 共13页

45

3.4 均匀设计和正交设计的比较

正交设计和均匀设计是目前最流行的两种试验设计的方法,它们各有所长,相互补充,给使用者提供了更多的选择。本节将讨论两种试验设计的特点。

首先正交设计具有正交性,如果试验按它设计,可以估计出因素的主效应,有时也能估出它们的交互效应。均匀设计是非正交设计,它不可能估计出方差分析模型中的主效应和交互效应,但是它可以估出回归模型中因素的主效应和交互效应(参见1.3节)。 正交设计用于水平数不高的试验,因为它的试验数至少为水平数的平方。我们曾遇到一项试验,有五个因素,每个因素取31水平,其全部组合有315?28625151个,若用正交设计,至少需要做961?312次试验,而用均匀设计只需31次,所以均匀设计适合于多因素多水平试验。

均匀设计提供的均匀设计表在选用时有较多的灵活性。例如,一项试验若每个因素取4个水平,用L16(45)来安排,只需作16次试验,若改为5水平,则需用L25(56)表,作25次试验。从16次到25次对工业试验来讲工作量有显著地不同。又如在一项试验中,原计划用均

*匀设计U13(135)来安排五个因素,每个有13个水平。后来由于某种需

*要,每个因素改为14个水平,这时可用U14(145)来安排,试验次数只需增加一次。均匀设计的这个性质,有人称为“试验次数随水平增加有“连续性”,并称正交设计“有跳跃性”。

正交设计的数据分析程式简单,有一个计算器就可以了,且“直观分析”可以给出试验指标Y随每个因素的水平变化的规律。均匀设计的数据要用回归分析来处理,有时需用逐步回归等筛选变量的技巧,非使用电脑不可。幸好电脑在我国已日趋普及,找一台电脑已不是很困难的事。配合本书,我们已编了一套软件,并有相应的说明。 下面我们对两种设计的均匀性作一比较。在3.2节我们曾通过线性变换将一个均匀设计表Un(nm)的元素变到(0,1)中,它的n行对应于Cm中的n点。用类似的方法,也可以将Ln(Sm)表变换为Cm中的n点。这两个点集的偏差可以衡量它们的均匀性,或代表性。要合理地比较两种设计的均匀性并不容易,因为很难找到二个设计有相同的试验数和相同的水平数,一个来自正交设计,另一个来自均匀设计。由于这种困难,我们从如下三个角度来比较: i)试验数相同时的偏差的比较

表23给出当因素数s=2,3,4 时两种试验的偏差比较,其中

第三章均匀设计表的构造和运用 共13页

46

OD&UD L8(27)U(8)L9(34)U9(9)L12(211)5*88 表23 实验数相同时两种设计的偏差 s=2 s=3 s=4 0.4375 0.5781 0.6836 0.1445 0.2000 0.2709 0.3056 0.1944 0.4375 0.1163 0.4375 0.0908 0.2344 0.0908 0.1900 0.0764 0.3056 0.0710 0.3438 0.1797 0.4213 0.3102 0.5781 0.1838 0.5781 0.1262 0.3301 0.1262 0.2710 0.1294 0.4213 0.1205 0.5078 0.2822 0.5177 0.4066 0.6838 0.2233 0.6836 0.1705 0.4138 0.1705 0.3439 0.1793 0.5177 0.1673 0.6309 s=5 0.7627 0.2272 0.7627 0.2070 0.4871 0.2070 0.4095 0.2261 0.5981 0.2115 *U12(1210)L16(25)*U16(1612)L16(45)*U16(1612)L25(56)U25(259)L27(313)11U27(27)L8(4?24)U8(8?4) U8(8?4?4) “UD”为均匀设计,“OD”为正交设计。例如,当s=2时,若用L8(27)*8来安排试验,其偏差为0.4375;若用U8(8)表,则偏差最好时要达0.1445。显然后者比前者均匀性要好得多,值得注意的是,在比较中我们没有全部用U*表,如果全部用U*表,其均匀设计的偏差会进一步减小。这种比较方法对正交设计是不公平的,因为当试验数给定时,水平数减少,则偏差会增大。所以这种比较方法正交设计明显地吃亏。在过去许多正交设计的书籍中,强烈地推荐用二水平的正交表,从偏差的角度来看,这种观点是错误的。 ii)水平数相同时偏差的比较

表24的前两列给出了两种设计水平数相同,但试验数不同的比较,其中当均匀设计的试验数为n时,相应正交设计的试验数为n2,

*例如U6(62)的偏差0.1875,而L36(62)的偏差为0.1597,两者差别并不

*很大。所以用U6(62)安排的试验其效果虽然比不上L36(62),但其效果并不太差,而试验次数却少了6倍。

第三章均匀设计表的构造和运用 共13页

47

表24水平数相同时两种设计的偏差 OD D UD *0.1597 L36(62) U6(62) *0.1378 L49(72) U7(72) *20.1211 L64(82) U8(8) *0.1080 L81(92) U9(92) *0.0975 L100(102) U10(102) *0.0888 L121(112) U11(112) *0.0816 L144(122) U12(122) *0.0754 L169(132) U13(132) *0.0656 L225(152) U15(152) *0.0548 L324(182) U18(182) D 0.1875 0.1582 0.1445 0.1574 0.1125 0.1136 0.1163 0.0962 0.0833 0.0779

iii)偏差相近时试验次数的比较

* 刚才我们讲到U6(62)比不上L36(62),如果让试验次数适当增加,

*2使相应的偏差与L36(62)的偏差相接近,例如U8(8)的偏差为0.1445,比L36(62)的偏差略好,但试验次数可省36/8=4.5倍,表25的最后一列给出了多种情形的比较及其可节省的试验倍数。

综合上述三种角度的比较,如果用偏差作为均匀性的度量,均匀设计明显地优于正交设计,并可节省四至十几倍的试验。

表25水平数相近时两种设计的比较 OD D UD D #OD/#UD *24.5 L36(62) 0.1597 U8(8) 0.1445 *4.9 L49(72) 0.1378 U10(102) 0.1125 *6.4 L64(82) 0.1211 U10(102) 0.1125 *6.2 L81(92) 0.1080 U13(132) 0.0962 *7.7 L100(102) 0.0975 U13(132) 0.0962 *8.1 L121(112) 0.0888 U15(152) 0.0833 *8.0 L144(122) 0.0816 U18(182) 0.0779 *(192) 0.0755 8.9 L169(132) 0.0754 U19*(232) 0.0638 9.8 L225(152) 0.0656 U23*(282) 0.0545 11.6 L324(182) 0.0548 U28

第三章均匀设计表的构造和运用 共13页 48

第四章 配方均匀设计

配方设计在化工、橡胶、食品,材料工业等领域中十分重要,设某产品有种s原料M1,?,MS,它们在产品中的百分比分别记作

X1,?,XS。显然。X1?0,?,Xs?0,X1???Xs?1.欲寻找最佳配方,需要

做配方试验或混料试验,由于X1,?,XS之间不独立,前三章所介绍的各种试验设计方法均不适用于配方试验,在文献中可以查到许多有用的方法,如单纯形格子点设计(Simplex-lattice design),单纯形重心设计(Simplex-centriod design),轴设计(axial design)等,Cornell[27]对各种配方试验设计方法作了详尽的介绍和讨论,本章先简单介绍文献中推荐的这些方法,然后指出这些方法的缺点,并推出配方均匀设计。 4.1 配方试验设计

Scheffe于1958和1963创造了单纯形格子点设计和单纯形重心设计,其方法如下: 1、 单纯形格子点设计

先确定一个正整数m ,然后让每个原料取值

Xi?0,12m,,?1,i?1,?,s. mmm例如当s=3,m=1时,只有3个试验点:(1,0,0),(0,1,0),(0,0,1),当s=3,m=2时,有6个试验点:(1,0,0),(0,1,0),(0,0,1),(1/2,1/2,0),(1/2,0,1/2),(0,1/2,1/2),当s=3,m=3时,有10个试验点:(1,0,0,),(0,1,0),(0,0,1),(1/3,2/3,0),(1/3,0,2/3),(0,1/3,2/3),(2/3,1/3,0),(2/3,0,1/3),(0,2/3,1/3),(1/3,1/3,1/3),一般记为{s,m}设计,一个

?s?m?1??{s,m}设计有??m?个试验点。

??2、 单纯形重心设计

一个s维的单纯开重心设计共有2s?1个试验点,其中s个单一成

s分的点,(10)个二种相等成分的试验点,即,,0,?,0),?,(0,?,01,)。(211111(1(2,2,0,?,0),?,(0,?,0,2,2),?,(ss,?,s).当s=3s)?1个s种相等成分的试验点:第四章 配方均匀设计 共10页

49

时,共有7个试验点,它们

11111111为:(1,0,0),(0,1,0),(0,0,1),(2,2,0),(2,0,2),(0,2,2),(13,3,3).

除上述两种设计外,还有许多其他方法,如Cornell建议的轴设计。

3、轴设计

单纯形Ts?{(x1,?,xs):xi?0,i?1,?,s,x1???xs?1}的重心和它各顶点的联线称为轴,轴设计取s个试验点,每个轴上一个点,使这些点到重心有相等的矩离d,通常0

图12对s=3时给出三种设计的点图,由这些点图我们发现这些设计有如下两个问题:

1) 试验点在试验范围Ts内分布不十分均匀。

2) 在试验边界上有太多的试验点。众所周知,在化学试验中,若有s种成分,如果缺少一种或多种,则或者不起化学反应,或者生成另外一种产品。

为了克服上述两个缺点,王元、方开泰「9『建议用均匀设计的思想来做配方设计,产生了配方均匀设计。

第四章 配方均匀设计 共10页

50