语音信号处理复习题 - 图文 下载本文

43 语音合成的目的是什么?它主要分为哪几类?比较它们的优缺点。

答:目的:让机器说话,达到一定的音质与可懂度(或产生与人类通信相关的语音) (1)、波形合成法。 优点:合成音质好; 缺点:存储空间大。 (2)、参数合成法。 优点:存储空间小; 缺点:合成音质较差。 (3)、规则合成法。 优点:可以合成无限词汇,存储量小 ; 缺点:合成音质效果较差 44 在TTS系统中,如何进行语音合成中的韵律控制。

答:韵律特征包括声调、语气、停顿方式、发音长短等。这些通过基频、音长、音强等参数

来体现,通过控制这些参数达到对韵律控制。包括基音同步帧周期的调整、合成语音幅度的调整、声调曲线的修正等。

预处理:语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测。 语音特征参数包括:短时平均能量、短时过零率、频谱、三个共振峰频率(F1、F2、F3的频率值、带宽、幅值)、线性预测系数、LPC倒谱和Mel倒谱等。 模式匹配:将未知语音的特征参数与模板参数逐一进行比较与匹配,判决的依据是失真测度最小的准则。

专家知识库:用来存储各种语言学知识,如汉语声调变调规则、音长分布规则、同音字判别规则、构词规则、语法规则、语义规则等。

识别决策:是最后一步,也是系统识别效果的最终表现。根据若干准则及专家知识,判决选出可能结果中最好的结果,由识别系统输出。

46 为什么语音识别时需要做时间规整?

答:语音信号具有很强的随机性,不同的发音习惯,发音时所处的环境不同,心情不同都会

导致发音持续时间长短不一的现象。如单词最后的声音带上一些拖音,或者带上一点呼吸音,此时,由于拖音或呼吸音会被误认为一个音素,造成单词的端点检测不准,造成特征参数的变化,从而影响测度估计,降低识别率,因此在语音识别时,首先有必要对语音信号进行时间规整。 47 说话人识别的目的及分类。

答:目的:确认说话人(即证实说话的人是否是所要求的那个人)或者从某个已知的人群集

合中辨认出那个说话人。

分类:说话人确认和说话人辨认。主要用于身份的验证。

48 什么叫加性噪声和乘性噪声。为什么加性噪声的处理是语音增强的基础。 答:按噪声和信号相关的性质可将噪声分为加性噪声和乘性噪声。 加性噪声是指噪声和信号相关性是加和关系;(如冲激噪声、周期噪声、宽带噪声等) 乘性噪声是指噪声和信号相关性是乘积关系;(如残响基传输网络的电路噪声)

对加性噪声进行处理,从带噪声语音信号中提取尽可能的纯净的原始语音,改善语音质量提高语音可懂度,是语音增强的有效的基本方法。

工作过程:将含噪语音信号和有声、无声判别得到的纯噪声信号进行DFT变化,从含噪语音谱幅度的平方中减去纯噪声的谱幅度的平方,然后开方,得原始语音谱幅度的估值,在借用含噪语音的相位,进行IDFT变化,得到增强的语音。 50 参考:A律压扩编码实例:(课件第五章) LBG算法实例(课件第三章)

隐HMM模型求 输出概率实例(课件第四章) 动态时间规正法(DTW)的计算实例(课件第七章)

51 声道冲激响应序列的复倒谱特点。说明如何在语音信号的倒谱中分离出声道冲激响应,

得到声道冲激响应有何用途?

答:(1)h(n)为有限长实序列,则其复倒谱是双边实序列

(2)由于|ak|、|bk|、|ck|和|dk|均小于1,故复倒谱是衰减序列,随着n的增大而衰减。 (3)复倒谱衰减速度快,复倒谱比原来序列更集中于原点附近,具有短时性 ,用短时窗函数提取声道响应序列的复倒谱是很有效的 (4)如果h(n)是最小相位序列,即bk=0和dk=0,则复倒谱序列为因果稳定序列。因此,最小相位序列的复倒谱是因果稳定序列。

52 简述LPC方程的建立过程, LPC系数与语音模型有什么关系?

预测误差e(n)就是激励信号G*u(n),

预测系数{ak}就是声道虑波器的系数{dk}.ak=dk,e(n)=G*u(n) 53 利用模式匹配法进行语音识别的步骤

答:先对系统中的每个字,做一个码本作为该字的参考(标准)模板,共有M个字,故共有

M个码本,组成一个模板库。

识别时,对于任意输入的语音特征矢量序列X={X1 , X2 , … , XN},计算该序列中每

一个特征矢量对模板库中的每个码本的总平均失真量误差,找出最小的失真误差对应的码本(代表一个字),将对应的字输出作为识别的结果。

55 语音信号的预处理过程包括哪些?

答:语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测。 56 通常环境中语音信号的声压级范围是多少? 答:60dB左右