基于麦克风阵列的多声源测向方法研究 下载本文

硕士论文 基于麦克风阵列的多声源测向方法研究

主要研究?(?,?)这一参数,通过对它的分析就能得到声源的方位。假设在远场模型下声源入射的平面波夹角为?,两麦克风间距为d,则声波到达两麦克风间的时间差为?=(dc)cos?,其中c为声速。那么,我们所求的声源方位角??arccos(?cd)。这样我们就可以通过对时延参数?(?,?)的分析来得到声源的方位。示意图如3.7所示:

图 3.7 双麦克风阵列时延估计原理图

通过上述推理我们可以知道,要想得到声源的方位角问题关键就在于确定每个声源对应的时延参数?j(?,?)。因此,我们对得到的所有参数对进行加权聚类,得到一个二维柱状图,由于对于来自同一个声源信号的那些时频点来说,它们的参数都散落在各自实际的时延参数?j(?,?)值附近,因此从二维柱状图上我们就可以估计出每个声源的对应的实际时延参数?j(?,?),再根据一定的几何关系就可以得到各个声源的方位角

[40]

下面通过一个模拟仿真来具体说明DUET算法在多声源测向方面的应用。有三段

时长均为3秒,采样率均为16kHz的语音信号,通过人为构造混合,两路混合信号的表达式分别如下:

x1(t)?s1(t)?s2(t)?s3(t),x2(t)?s1(t?3)?s2(t?2)?s3(t?1) (3.43)

正如上述表达式构造的那样,x1(t)表示的是1号麦克风接收到的三个声源信号的混合信号,x2(t)表示的是2号麦克风接收到的三个声源在相对1号麦克风分别延时3个采样周期,超前2个采样周期和延时1个采样周期的混合信号。

23

3 双阵元麦克风阵列时延估计方法 硕士论文

(a) 聚类柱状图

(b) 聚类投影图

图3.8 DUET算法仿真图

即当对所有时频点的混合参数对进行加权聚类后我们可以得到如图3.8(a)所示的二维加权聚类柱状图,图3.8(b)是对图3.8(a)的投影。从图3.8(a)中可以看到有三个很明显的峰,这意味着当前有三个声源信号,而每个峰所在的坐标值就是相对应的声源信号的实际混合参数对。这样我们利用图3.8(b)中每个声源对应的时延参数按照一定的几何关系换算可以估计出每个声源各自的方位角。

24

硕士论文 基于麦克风阵列的多声源测向方法研究

3.3.4 DUET算法的局限性

通过上述章节的介绍,我们可以将在盲源分离领域中被广泛应用的DUET算法应用到多声源测向的研究中来。我们主要利用语音信号在时频域短时正交的这一特性,仅用两个麦克风就可以估计出任意多个声源信号的方向。计算量小,成本低,容易实现。

然而与此同时,这类算法也存在一个致命的缺点,即相位卷绕问题[41]。正如我们所见的那样,整个算法的核心是要估计出每个声源的时延参数?j(?,?),而这个时延参数是来自于对经过加窗傅里叶变换后混合信号的相位值的准确获得。但是由于傅里叶变换所带来的复数因子e?iw?必须要求所取的?满足 ????,否则会产生相位卷绕的模糊问题[42-43]。下面我们通过一个简单的例子来具体说明这个问题。假设两路混合信号分别为:

x1?s1(t)?s2(t), x2?s1(t?5)?s3)2(t?

对两路混合信号均做加窗傅里叶变换后,在时频域内通过计算得到的每个时频点的时延参数值在理论上来讲应该是(?1/??)e(i3?。)然而如果)e(?i5?或)者是(?1/?????/5,由于此时s1的时延值?为5,不满足????。所以得到的相位值

?(e?i5?)??5?。同样的,当???/3时,得到的相位值?(ei3?)?3?。因此得到的时延参数不再是纯粹的两个值,而是当???/3时对应的时延参数?将会是一些随机的数值,这样势必会导致聚类的模糊。由于?和麦克风间距d存在着正比关系,因此,为了使更多的时频成分在计算中满足????以避免相位卷绕问题,我们只有不断地减小麦克风间距d的值,使得它要小于?c/?。但这种限制又给实际应用带来了难度。

m例如,对于一个以16kHz采样得到的语音信号,最大频率成分为8kHz,则通过计算可以得知此时的麦克风间距大约在2cm。该间距要求由于麦克风物理尺寸的限制在实际中几乎无法实现,因此在下一章节,本文提出一种基于迭代时频掩蔽的宽间距麦克风阵列多声源测向方法以改善相位卷绕模糊产生的影响。

25

4 基于迭代时频掩蔽的宽间距麦克风阵列相位解卷绕 硕士论文

4基于迭代时频掩蔽的宽间距麦克风阵列相位解卷绕

通过上章节的分析可以知道,由于对两路混合信号x1(t)和x2(t)做了短时傅里叶变换,才将时域中的时延值?问题转换到时频域中对复数因子e?iw?的研究,所以才产生了必须满足????否则会产生相位绕卷的模糊问题。由此可见,在时频域中,频率越大的部分越容易产生模糊问题。接下来我们首先从无相位卷绕模糊的低频部分着手利用迭代时频掩蔽法来改善这一问题。

4.1 迭代时频掩蔽方法

首先通过对所有时频点的混合参数对(a(?,?),?(?,?))进行第一次聚类,在二维柱状图中能量最强的声源在低频区域(即不存在相位卷绕的区域)的混合参数对将被首先估计出来,根据估计出来的时延参数?,我们就可以找出该声源在高频区域所带来的相位卷绕部分,修正卷绕模糊部分的值。然后将属于该声源的时频点全部屏蔽做第二次聚类,对能量次高的声源信号进行如上处理,依次类推。也就是说,假设我们将

?2??,则说明首先估计出来的时延参数记为??,采样频率记为?,如果能满足??ss相应的该声源在直流到?s2的频域范围内不存在相位卷绕引起的模糊问题,然而,如

?????2内将会存在相位卷绕的问题。此时,我们果不满足则说明在频域范围??s?(?), 可以利用之前估计出来的??利用下式推算出相应的理论相位值??(?)??(???) (4.1) ?其中的?表示取其主值范围在??~??的相位值。

然后我们在存在相位卷绕问题的频域内,将每个时频格通过上式计算得到的理论相位值和该时频格处实际的相位值一一相应做比较,只要当前时频格处的相位值?(?)相接近,也就是说, ?R(?,?)与其相应的理论值??(?)?(?R(?,?)???) (4.2) ?我们就标记该处时频点属于当前声源,其中的??表示一定的容差范围。并且将?(?),然后再做上标记。这样当对所有的时频点都处理完此处的相位值修正为理论值?之后,属于当前声源的时频点都已经被识别出来,并且属于该源的相位模糊部分也被修正。最后我们再将这些被标记的时频点全部屏蔽使其不再参与下一次的聚类,然后再按上述一系列步骤将属于能量次高声源的时频格屏蔽,并修正其相位模糊部分,按此不断地迭代聚类,最终将所有声源相应的模糊部分识别出来并修正。下面介绍一下该方法的具体步骤。

26