10基于视觉心理学的计算机视觉算法评价 下载本文

第七章 基于视觉心理学的计算机视觉算法评价

第七章 基于视觉心理学的计算机视觉算法评价

合适的评价标准与评价方法对科学的发展进步起着关键性的作用。计算机视觉中的许多问题与人的主观方面密切相关,如图像分割、图像物体识别、图像内容检索等等。所以对解决这些问题算法的评价也离不开人的主观参与。目前,几乎所有计算机视觉算法评价参考标准都是由人眼标定的。受教育、文化、信仰、习惯、性格等背景差异的影响,不同个体对同一视觉信息的标定存在差别。故完全客观进行视觉算法评价几乎是不可能的。视觉心理学的主要内容是发现主观的人类视觉系统中的客观规律。按照前面各章的讨论,这些规律能用于指导解决计算机问题,当然也是计算机视觉算法的理想参照。本章首先探讨为什么视觉心理学能用于计算机视觉算法评价,接着提出具体的评价方法,最后进行实例研究。

7.1 引言

计算机视觉算法评价(Performance characterization in computer vision)的任务是通过对算法的输出结果与理想的输出结果进行比较来发现哪些算法是最好的,以及其中的原因。在本章中,性能并不仅仅意味着算法运行有多快,而且要考察该算法对给定任务有多好。从上世纪70年代以来,学者们对此进行了广泛的研究,取得了一些重要的成果。这些研究工作基本上可分成三类:理论分析、实验评价与工程应用。

7.1.1 理论分析

1986年,Haralick R M郑重地提出了计算机视觉领域缺乏用来构建最优方法的完整理论体系[Haralick 1986]。同时,Price K撰文提出算法研究者应该遵从同一标准对提出的算法进行比较,这样才能为读者提供足够的引导以方便他们重用这些算法[Price 1986]。这是第一次,计算机视觉的研究者把目光投向了计算机视觉算法评价问题。在1994年,Haralick R M在[Haralick 1994(a)][Haralick 1994(b)]中标志性地发起一场关于计算机视觉算法评价的讨论。计算视觉领域的先驱人物Cinque L, Guerra C,Levialdi S [Cinque 1994], Weng J Y,Huang T S [Weng 1994], Meer P[Meer 1994], Shirai Y[Shirai 1994], Draper B A , Beveridge J R

115

视觉心理学在计算机视觉中的应用研究

[Draper 1994]等纷纷撰文对此进行回应,进行了激烈辩论。最后一致认为,计算机视觉算法评价是极端重要的,同时也是非常困难的。他们也提出了一些解决视觉算法评价基本问题的方法与理论,如样本的选择、输入错误模型、错误传播估计、参考标准的获得、人的主观影响等等。1996年,Forstner W [Forstner 1996]讨论了计算机视觉算法评价中最具争论的10个问题,并最终认为这项工作是可行的,这使研究者们不再反对计算机视觉算法评价工作。2002年,Haralick R M进一步提出了模块化的评测方法(Modular methodology)[Thacker 2002],它建立在成熟的统计方法学基础之上。然而,理论的评价一般使用数学方法进行分析,只能对简单的视觉算法有效[Heath 1997],面对复杂的算法,我们不得不从实际图像出发,求助实验评价方法。

7.1.2 实验评价

尽管上世纪70年代,就有学者从事计算机视觉算法的实验评价,但直到90年代才大规模展开。有关这方面文章集中发表在会议专题或杂志专刊上。会议专题主要有:1996年的计算机算法性能刻画会议专题(Workshop on Performance Characterization,与ECCV-96联合);1998年的计算视觉领域实验评价技术会议专题(Workshop on Empirical Evaluation Techniques in Computer Vision);1998(与CVPR 98联合),2000,2001,2002的计算机视觉领域实验评价方法会议专题(Workshop on Empirical Evaluation Methods in Computer Vision);1999年的视觉系统性能刻画与评测会议专题(Workshop on Performance Characterization and Benchmarking of Vision Systems,与ICVS-99联合);2000-2005每年一次的跟踪与监控的性能评价会议专题(Workshop on Performance Evaluation of Tracking and Surveillance);国际会议Acvis 2005, Acvis 2006也设立了视觉算法性能评价专题。这方面的专刊主要包括:1998年计算机视觉与应用杂志(Journal of Machine Vision and Applications)的性能刻画专刊;2000年Kluwer Academic出版社结集出版的计算机视觉算法性能评价(Performance Evaluation of Computer Vision Algorithms);2001年,计算机视觉图像理解杂志(Journal of Computer Vision and Image Understanding)的计算机视觉算法的实验评价专刊(Empirical Evaluation of Computer Vision Algorithms);2005年应用信号处理杂志(Journal of Applied Signal Processing)征集图像算法评价方面的专题文章,拟定于2006第三季度出版。值得一提的是,自上世纪70年代以来,国际著名杂志IEEE Trans. on Pattern Analysis

116

第七章 基于视觉心理学的计算机视觉算法评价

and Machine Intelligence一直对这个领域做出贡献,出版了一系列重要的视觉算法评价的文章。同时,一些国际著名的评测组织如MPEG-7、Benchathlon、Viper、MIRA、SPEC、TPC等开始了重要的商业行为。以上工作主要集中在对图像算法的评价,而很少有人像M. J. Pickering与S. Ruger [Pickering 2003]那样对图像序列(视频)算法进行评价。尽管已进行了如此多的研究,实验评价方法还没有完全成熟,主要原因有三个。一是缺乏标准而免费的视觉信息库[Wirth 2004(a)][Müller 2001(a)][Gunther 2001],现有的库如Corel, MPEG的价格是非常昂贵的,一般的研究者无力购买。二是缺乏获取参考标准(Ground Truth)客观而公认的方式[Haralick 1994(a)] [Haralick 1994(b)] [Cinque 1994] [Weng 1994][Meer 1994][Shirai 1994][Draper 1994] [Forstner 1996],很多视觉算法的参考标准是算法设计者本人主观确定的,难免会偏向自己的算法。三是缺乏公认的评价机制(Evaluation scheme)[Müller 2001(a)],查准率(Precision)与查全率(Recall)是经常使用的指标,但在图像库很大时,这两个指标是很难完全计算的。所以,使用者不得不使用私人视觉信息库、在孤立的、调试得最佳的机器上统计自己算法的性能,并对算法结果进行对自己有利的取舍[Wirth 2004(a)][Müller 2001(a)][Gunther 2001]。而且,不同的实验经常得出相互矛盾的结论,如Shin,Bowyer K W等人对典型边缘检测算法性能测试的讨论[Shin 2001],McCane对光流算法的测试[McCane 2001]。总之,实验评价方法在对不同学者设计的算法进行评价时遇到了很大困难。

7.1.3 评价工程

尽管视觉算法评测存在各种各样的困难,但它却是构造健壮的计算机视觉系统必由之路。所以,一些专门针对计算机视觉算法评价的工程活动也大规模地开展。欧洲IST计划资助Patrick Courtney等人开展了计算机视觉算法性能刻画项目(Project of performance characterization in computer vision)。Gunther N J等人[Gunther 2001]、Müller H等人[Müller 2001(b)]分别实现了不同的基于内容图像检索测试平台(Content-based image retrieval (CBIR) benchmarking)。其它的工程项目主要来自医学图像领域:美国国家癌症研究所(Nation Cancer Institute)的可视人与人脑工程、西门子公司的图像与视频系统的性能刻画工程(Project of performance characterization of image and video analysis system),Fitzpatrick M主持的图像配准(Registration)算法评价[Christensen 2001, pp143-159],Wirth M主持

117

视觉心理学在计算机视觉中的应用研究

的乳房X线照片分割(Segmentation of mammograms)算法评价项目[Wirth 2004(b)]。1998年以前的项目请看Bowyer K W 与Phillips P J的文章[Bowyer 1998],该文提到了FERET面孔识别算法评价,光学字符识别(Optical character recognition,OCR)系统性能评价,自动目标识别(ATR)算法评价等等。这些项目的目标是想为计算机视觉系统的实际应用设立客观的评价标准,提供通用的评价资源和评价工具。

上述的理论分析与实验评价方法也许最终能完全解决复杂的计算机视觉算法评价问题,但是Cinque L在文献[Cinque 1994]中清楚地指出:“我们知道在达到这个目标时会遇到很多问题,还会有很长的路要走。所以现在为了获得对算法实用性方面的评价,不得不主要依赖人的判断。对一些特别的应用,我们感到这注定是唯一的方法。”视觉心理学主要调查人类视觉系统的一般规律,如看什么、如何看,所以本章我们将详细讨论为什么视觉心理学能用于计算机视觉算法评价,并探讨如何完成这项任务。

7.2 视觉算法评价与视觉心理学

如上所述,视觉算法评价主要分成理论分析与实验评价两种。我们认为视觉心理学可用于这两种评价方法,因为人是最后的裁决者[Cinque 1994]。下面对两种情况分别进行讨论。

7.2.1 理论分析

在这节中,我们用三个不证自明的假定和两个推论来说明理论分析的评价方法与视觉心理学的关系。

假定1 在计算机视觉算法中,不得不使用假定,所以不恰当的假定必然导致不好的算法。

在严格的意义上讲,所有的视觉算法模型必然与现实世界存在着某种差别[Haralick 1994(a)][Haralick 1994(b)] [Cinque 1994] [Weng 1994][Meer 1994]Shirai 1994][Draper 1994] [Forstner 1996],因为模型不可避免地会使用假定。例如,高斯分布经常被用作噪音模型,尽管对某些给定的应用,这是不合适的。Thacker N

118