基于韦伯定律的图像相似度检测应用研究
pi?N(mi,Pi) (2.4)
T?11 DB?18(m1?m2)P(m1?m2)?2ln(dePt) (2.5)
dePt1dePt2 P? (3)巴氏系数
P1?P2 (2.6) 2如2.3.2节所描述,Bhattacharyya系数(Bhattacharyya Coefficient, BC,巴氏系数)是对两个统计样本的重叠量的近似计算。巴氏系数可用来对两组样本的相关性进行测量。计算巴氏系数涉及对两个样本的重叠部分进行基本形式的积分,两个样本值的积分被分成指定数目的部分。
当运用各个样本部分的成员数计算时有公式如2.7所示。 BC??i?1n?a?bii (2.7)
公式2.7中a,b为两个不同的样本,n是它们的分块数,ai、bi分别表示着a、b中第i部分的成员数目。如果某个块里两个样本的公共成员或者重叠的样本成员增多,BC的值随之增大。那么选择合理的分块数目是非常重要的,这样可以保证BC值的精准性。 如果两个样本中没有任何重叠的部分,BC的值就为0,由于每个分块都与0做乘法运算。
2.2.3 欧氏距离计算图像相似度 (1)欧氏距离
欧氏距离又称欧几里德度量(euclidean metric),指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离的就是两点之间的实际距离。欧氏距离表示两项之间的差是每个变量值的差的平方和再平方根,这样做的目的就是计算整体距离即不相似性。
(2)欧氏距离计算公式 二维空间的计算公式如2.8所示
O??(x1?x2)2?(y1?y2)2 (2.8) 以此类推,n维欧式空间是一个点集,它的每个点X或者向量X可以表示为(x[1],x[2],...,x[n]),其中x[i](i=1,2,...,n)是实数,它称为X的第i个坐标。
- 16 -
基于韦伯定律的图像相似度检测应用研究
两个点 A = (a[1],a[2],?,a[n]) 和 B = (b[1],b[2],?,b[n]) 之间的距离 ρ(A,B) 定义为下面的公式2.9:
?(A,B)? (3)欧氏距离优缺点
欧氏距离算法简便并且便于理解,但是它也有缺点。比如它将图像不同的属性(各个不同的指标)无差别对待,与实际应用不相符,即它不考虑各种特性之间的联系。 2.2.4 马氏距离计算图像相似度 (1)马氏距离
马氏距离(Mahalanobis distance)是表示数据的协方差距离的一种有效的计算两个未知样本集的相似度的方法,也可以表示为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度。[27]如图2.12所示,它考虑到各种特性之间的联系,并且尺度无关(scale-invariant)即独立于测量尺度。
?(a[i]?b[i])i?1n2 (2.9)
图2.12 马氏距离示意图
(2)马氏距离计算公式
第i个样本与第j个样本的马氏距离dij计算公式如下2.10表示:
- 17 -
基于韦伯定律的图像相似度检测应用研究
2 dij?(xi?xj)?S?1(xi?xj) (2.10)
xi和xj分别为第i个和第j个样品的m个指标所组成的向量,S为样本协方差矩阵。特殊的,总体为G且m=1时,特征向量为?,协方差矩阵S=(?ij),公式如2.11所示。
dij? (3)马氏距离优缺点
它考虑到各种特性之间的联系,即独立于测量尺度,马氏距离不受量纲影响,即两点之间的马氏距离与原始数据的测量单位无关。马氏距离的计算是建立在总体样本的基础上的,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同。由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。
但是马氏距离的缺点是夸大了变化微小的变量的作用,且比起欧氏距离实现困难。且要求总体样本数大于样本的维数,而且需要保证协方差逆矩阵存在。更大的缺点在于马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵。
2(x??)?(x??)?2?(x??)2?2 (2.11)
2.3 小结
本章介绍了图像相似度的基础内容,包括图像相似度的概念、算法简介及各种相似度算法的优缺点。最后着重介绍了通过距离尤其是巴氏距离计算图像相似度。
现在对通过距离计算相似度进行简单的总结。通过距离算法[28]主要有欧氏距离(Euclidean distance )、曼哈顿距离(Manhattan distance)、切比雪夫距离(Chebyshev distance)、闵可夫斯基距离(Minkowski distance)、标准化欧氏距离 (Standardized Euclidean distance )、马氏距离(Mahalanobis Distance)、巴氏距离(Bhattacharyya Distance)、汉明距离(Hamming distance)、夹角余弦(Cosine)、皮尔逊系数(Pearson Correlation Coefficient)等。在我们的研究中,使用巴氏距离、欧氏距离、马氏距离进行举例。
可以说欧氏距离是简化版的马氏距离,欧氏距离不考虑各种特性之间的联系。量纲无关,排除变量之间的相关性的干扰,但是马氏距离夸大了变化微小的变量的作用,需要保证协方差逆矩阵存在,计算相对不稳定。在直方图相似度计算时,巴氏距离获得的效果最好,但计算是最为复杂的。通过这一章的分析,我们得到一个结论基于巴氏距离
- 18 -
基于韦伯定律的图像相似度检测应用研究
的相似度算法是在一定条件下最好的相似度算法,所以我们研究选择基于巴氏距离的相似度算法。
- 19 -