基于AdaBoost算法的人脸检测方法综述毕业设计论文 下载本文

2.1.3 特征提取

特征提取的目的是将训练图像的像素值映射到特征空间,以降低类内距离,提高类间距离,方便分类。常用的特征包括原始像素特征、haar特征和Gabor特征[9]等。特征提取要同时考虑特征的鉴别能力和计算复杂度。例如当直接采用图像灰度值作为特征时,虽然省略了特征提取这一计算过程,但由于原始像素特征本身的鉴别性比较低,往往需要采用分类器将特征提取这一过程隐含在分类结构中,使得分类器结构变得非常复杂,分类速度下降,Gabor特征对目标的描述比较有效,但该特征的计算复杂度较高,不便于人脸检测的实时应用。haar特征的定义简单,同时计算复杂度较低,是现有人脸检测算法中广泛采用的特征表示形式,将在第4章详细介绍。

2.1.4 分类器的学习

分类器的学习是模式识别和机器学习研究的主要内容,现在常用的方法包括神经网络、SVM和AdaBoost集成分类器等。神经网络在20世纪90年代早期应用较多;随着SVM的发展,目前可以采用神经网络的地方已大多由SVM替代。采用SVM的优点是避免了反复选取神经网络的隐藏层节点数目且推广性较好。AdaBoost集成分类器的优点是可以从一个特征池中选择出对分类最有用的特征,其设计方法将在下文第5章有详细介绍。

在分类器训练过程中可以通过“自举”(bootstrap)的方法提高分类器的性能。自举的意思是利用已经训练好的分类器对背景图片上的窗口进行分类,将得到的虚警加入到非人脸样本中,然后重新训练分类器。自举的目的是将最容易混淆的非人脸样本逐渐加入到训练集中,以提高分类器的鉴别能力。自举的方法可以反复进行直到所得到的分类器在测试集合或者验证数据集合上的性能没有明显改善为止。

2.2 目标的在线检测

在训练过程中得到的目标模型具有固定的宽度和高度,而在待检测图像中目标可能出现在任何位置,具有任意的大小,所以检测过程中一般采用金字塔式的穷尽搜索法。如图2.2所示。

图2.2 目标检测的金字塔

原始图像按照预定尺度步长逐步缩小,直到达到预先设定的尺度或者小于模板为止。在每一尺度下分别以固定的步长抽取和标准模板同样大小的窗口,经过和训练过程中相同的预处理和特征提取过程得到该窗口的特征向量,最后利用预先训练好的分类器对该特征向量进行分类。由于目标的长宽比是固定的,所以目标在尺度上只有一个自由度,目标在图像上的位置退化为3个自由度,可以用3-D空间中的一个点表示。假设目标模板的高度为H、宽度为W、模板的中心位置为(0,0)、每个模板对应的位置设为3-D空间中的坐标点(0,0,1),那么目标在3-D空间中点y?(x1,x2,s)对应的中心为(x1,x2),宽度为sW,高度为sH。某一尺度下任意一个窗口对应3-D空间中的一个固定点y,对应的分类器的响应值为c(y),概率大于预先设定阈值的窗口可以加入候选目标集合Y。

一般在目标附近,会有好几个窗口被判断为候选目标,如图2.3所示。

图2.3 检测结果的融合

需要对这些对应同一个目标的窗口进行融合,找到分类器相应的局部极值,然后用这个3-D空间中的极值点作为目标出现的真实位置。检测结果融合有以下3条原则[10]:

? 局部极值点对应的概率值越大,说明该位置出现目标的可能性越大; ? 局部极值点附近对应的窗口越多,说明该极值点是目标的概率越大; ? 临近的检测结果应该融合在一起,但在各个尺度上都临近的检测目标可能是对应相邻的两个目标,不应该被融合。目前满足这3条原则的较好的融合方法是变带宽的均值漂移算法(variable bandwidth mean shift)[11]。

2.3 人脸检测方法的性能评价

对于人脸检测方法的性能评价,一般来讲会关注于两个方面,一是运用怎样的人脸数据库来检测,该人脸数据库必须尽可能多的包括实际生活中人脸出现的情况;二是需要运用怎样的性能评价方法以及产生的评价指标。

2.3.1 人脸图像数据库

人脸图像数据库可用于人脸检测的训练和测试。大部分的人脸检测方法都需要人脸训练图像数据,原先用于人脸识别实验的数据库现在都可以用来进行人脸检测的训练。通常人脸识别实验所采用的人脸库不大,一般仅包括100幅左右的人脸图像,如MIT 库、Yale 库、CMU 库等都是小型库。

下表列出了常见的一些人脸检测图像数据库[12]:

数据库

描述

共有16个人的脸,每个人有27幅在不同光线、不同尺度、不同头部角度情况下的图像 收集了大量的男性、女性人脸,每张图像包含了一张特定表情的人脸 分为20个主题,共564张图像,每个主题包括从侧面到正面的不同人脸姿态 30个人的300 张正面人脸(每人10张)和150 张侧面人脸(每人5张) 在不同光照条件下,戴眼镜的表情人脸

40个主题,每个主题10张图像 在不同光照条件下的剪裁好的人脸图像

一个包含不同图像

位置

MIT ftp://whitechapel.media.mit.edu/pub/images

FERET http://www.nist.gov/humanid/feret

UMIST http://images.ee.umist.ac.uk/danny/database.html

Univ. of Bern ftp://ianftp.unibe.ch/pub/images/faceimages/

Yale AT&T (Olivetti) Harvard M2VTS

http://cvc.yale.edu

http://www.uk.research.att.com

ftp://ftp.hrl.harvard.edu/pub/faces http://poseidon.csd.auth.gr/m2vts/index.html

序列的多态数据库

3276 张在不同光

照条件下的表情和http://rvl1.ecn.purdue.edu/~aleix/aleix_face_db.html 有遮挡的人脸图像

表2.1 常用的人脸图像数据库

Purdue AR

图2.4 典型的正面人脸图像数据库中的人脸图像

如图2.4,就是MIT的一个典型的正面人脸数据库中的图像,图像的尺寸都为20?20。本论文的检测算法所用的训练图像即为这个数据库中的所有图片。当然,设计者由于不同研究任务的需要,必要时可以设计和建立具有专用工程特色的数据库。

2.3.2 性能评价方法

由于不同的人脸库所取得的图像条件和质量不同,因此不同的识别程序之间很难进行比较。如图2.5,左侧为测试图像,右侧为检测结果。不同的标准会导致不同的检测结果。为促进人脸识别算法的深入研究和实用化,美国国防部发起了人脸识别技术(Face Recognition Technology, FERET)工程,它包括一个通用人脸库和一套通用测试标准,用于定期对各种人脸识别算法进行性能测试,其分析测试结果对未来的工作起到了一定的指导作用。