第七章 基于视觉心理学的计算机视觉算法评价
A在文献[Thacker 2002]中清楚指出:“在许多实际应用环境中,不可能构造与问题完全对应的计算模型。在两者之间不得不进行折衷处理,折衷一般表现为用数据统计形式表示的假定(见本文第二章表2-1)。这些折衷是否适合,将完全决定具体算法的成功或者失败。”Bowyer K W 与Phillips P J也指出当复杂性增长时,计算机视觉算法的性能将降低,甚至失效[Bowyer 1998] ],图7-1表明了他们的基本意思。所以他们认为算法设计最重要的部分是对算法基本假定进行选择与评价。
计算机视觉算法中使用假定的数量如果部分假定与应用不匹配算法实际应用性能如果所有的假定与应用匹配图7-1 视觉算法性能是假定复杂性的函数[Bowyer 1998]。 而且,计算机视觉的先驱Poggio T在Nature杂志上撰文指出,大部分计算机视觉问题是光学成像问题的反问题[Poggio 1985]。而大部分的反问题又是病态的(ill-posed)。正则化理论(Regularization theory)是求解病态问题自然而然的方法。对于病态问题,最重要的标准是物理假定的合理性(Physical assumption plausibility),而不是解的唯一性。物理假定的合理性意味着,这些假定来自客观世界,同时能约束正则化方法来得到唯一的解,而且这个解反过来又要具有物理意义[Marr 1982, pp75, 104]。图7-2显示了物理假定合理性的例子:自上而下的光源假定。左边的图像看上去是凸起的,而右边的看上去是凹下去的。实际上,左边的图像仅是右边图像的180度的翻转。人类视觉系统使用的规则是,阴影在下面的点看上去是凸起的(见左图),而阴影在上面的点看上去是凹下去的(见右图)。人类视觉系统使用的假定是:光源总是在观察者的上面。这个假定具
119
视觉心理学在计算机视觉中的应用研究
有物理合理性,因为太阳光、月亮光、人工光源通常来自上面。因此这个假定是适合解决从阴影求形状问题的。
所以,提取并验证算法的假定对算法的评价是非常重要的。理论分析方法可以应用这个过程对算法进行定性分析[Thacker 2002]。如果算法所使用的假定与算法应用实际不符,就可以断言,此时算法的输出结果肯定会很差。
图7-2 自上而下的光源的例子。左边的图像看上去是凸起的,而右边的图像看上去是凹下去的。实际上,左边图像仅是右边图像180度的翻转,这使阴影的位置发生了变化。
假定2 就适应目前的视觉环境而言,人类视觉系统所使用的算法是最好的、最通用的,所以这些算法所使用的假定也必定是物理合理的。
大多数学者认为,人无论在生物世界,还是机器人世界,人类视觉系统都是最好的、最通用,最能适应当前的视觉环境[Cinque 1994][Shirai 1994][Heath 1997][Shaffrey 2002]。故计算机视觉算法的评价标准基本上都是由人眼标定的。不像其它自然科学领域(如物理学中测时的钟表,测距的尺子),在计算机视觉领域中,超越人类感官系统的公共标准是不存在的。人类视觉系统的优越性受益于长期的自然选择,因为自然选择的每一步都会馈赠人类某种好处。根据Darwinian的自然选择理论,这种好处会代代相传[Gregory 1997, pp24-25]。而且,人类视觉系统服从模块化的设计原则,所以它的每个子模块(子问题)与子模块算法所使用的假定也必定是最优的。
推论1 对给定的视觉任务,好的计算机视觉算法所使用的假定应该与人类视觉系统在解决同类问题时所使用的假定相同(或相似)。
120
第七章 基于视觉心理学的计算机视觉算法评价
根据Marr的计算机视觉理论,每一个视觉处理任务都应从三个基本独立、松散相关的层次进行研究:计算理论层、表示与算法层和硬件实现层。从信息处理的观点来看,计算理论层是最重要的。该层最基本的任务是发现并分离出假定(又称约束),它既足以定义一个处理过程,又具有很强的物理合理性[Marr 1982, pp10-28]。这些假定(约束)通常是以相当自然的方式从日常体会中或心理物理学或神经解剖学的结论中得到[Marr 1982, pp331]。
而且,在理论层次上,计算机视觉问题非常类似于人类视觉问题,两者都是发现客观世界中有什么事物,这些事物在什么地方[Marr 1982, pp1][Rock 1984 pp1-11]。因此,根据假定2(人类视觉系统是最优的)与以上的讨论,推论1应该是成立的。Thacker N A也曾得出过类似的结论:当不同的算法使用相同的假定,我们不要奇怪,这些算法的性能往往相差无几[Thacker 2002]。Shirai Y更加清楚地陈述:如果一个算法的输出与人类视觉系统的输出类似,这就是相当理想的情况[Shirai 1994]。
假定3 视觉心理学的主要任务之一就是研究人类视觉系统使用的假定。
Rock I指出;“视觉心理学主要研究人类视觉系统如何从变化的刺激中恒常地感知物体。如果说人眼类似于照相机,人类视觉感知的神秘性在于它能够从不完全的、易于失真的、模糊的、二维视网膜映像,而建立起丰富的、稳定的、通常正确的、三维客观世界表象[Rock 1984,pp1 -20]。”更详细、更全面的结论请参阅[Poggio
1985][Marr
1982][Shaffrey
2002][Gregory
1997][Rock
1984][Biederman 1987][Biederman 1995][Koffka 1935][Watt 2000][章明 1991] [Boyd 1998] [Rock 1983]或其它关于视觉心理学的论文与书籍。
推论2:视觉心理学能用于判断计算机视觉算法的假定是否适合给定的应用,从而可以用来评价算法的优劣。
运用假定3、推论1与假定1,经过简单的三段论逻辑推理,就可以得到推论2。整个推理过程见7-3的左边部分。
121
视觉心理学在计算机视觉中的应用研究
图7-3 视觉算法评价与视觉心理学的关系。左边部分是理论分析方法,算法假定的物理合理性是联系纽带;而右边部分是实验评价方法,参考标准是联系纽带。
计算机视觉算法评价理论分析方法实验评价方法算法假定的物理合理性参考标准人类视觉系统使用的假定实际用户判断 或对实际用户建模视觉心理学7.2.2 实验评价
对实验评价来说,最昂贵的、最难的是得到算法的参考标准[Haralick 1994(a)][Haralick 1994(b)][Cinque 1994][Weng 1994][Meer 1994][Shirai 1994] [Draper 1994] [Forstner 1996]。完成该项工作的方式可以分成两类:实际用户评价、计算机模拟实际用户[Müller 2001(a)]。我们认为两者都可以从视觉心理学中得到支持。
前者,即实际用户判断,是比较准确的,但是非常费时。对某一给定的任务,用户不但要对图像集的所有图像手工给出理想的参考结果,还要评价算法的输出结果与理想结果之间的差异。有时,需要标定的图像集是非常大的,如基于内容的视觉信息检索系统、通用图像物体识别系统等等。而且,对同样的图像集与相同的任务,不同的用户标定结果一般是不同的,甚至差别很大[Müller 2001(a)]。故必须用统计方法对这些结果进行一致性检验[Wirth 2004][Shin 2001] [Shaffrey 2002][Boyd 1998]。幸运的是,视觉心理学正是研究不同用户视觉系统的共性。所以,视觉心理学能用于指导实际用户判断。
后者,用计算机模拟实际用户,比较简单,但实际用户是很难建模的[Haralick 1994(a)][Haralick 1994(b)] [Cinque 1994] [Weng 1994][Meer 1994][Shirai 1999]
122