MPEG-2标准是一个直接与数字电视广播有关的高质量图像和声音编码标准,是MPEG-1的扩 充。MPEG-2提供位速率的可变性能功能,其最基本目标是:位速率为4~9 Mb/s,最高达1 5 Mb/s。
MPEG-4是为视听数据的编码和交互播放开发算法和工具,是一个数据速率很低的多媒体通
信标准。MPEG-4的目标是要在异构网络环境下能够高度可靠地工作,并且具有很强的交互 功能。
MPEG-7的名称叫做多媒体内容描述接口,目的是制定一套描述符标准,用来描述各种类型
的多媒体信息及它们之间的关系,以便更快更有效地检索信息。这些媒体材料可包括静态
图像、图形、3D模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某
些情况下,数据类型还可包括面部特性和个人特性的表达。 第12章MPEG声音
12.1 列出你所知道的听觉系统的特性。 响度感知, 音高感知, 掩蔽效应
12.2 什么叫做听阈?什么叫做痛阈?
(1) 当声音弱到人的耳朵刚刚可以听见时,称此时的声音强度为“听阈” (2) 当声音强到人的耳朵刚刚感到疼痛时,称此时的声音强度为“听阈”。实验表明,如
果频率为1 kHz的纯音的声强级达到120 dB左右时,人的耳朵就感到疼痛,这个阈值称为“ 痛阈”。
12.3 什么叫做频域掩蔽?什么叫做时域掩蔽?
强纯音掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽。 (2) 在时间方向上相邻声音之间的掩蔽,这种特性称为时域掩蔽。 12.4 MPEG-1的层1、2和3编码分别使用了听觉系统的什么特性? 层1:频域掩蔽特性
层2:频域掩蔽特性,时间掩蔽特性 层3:频域掩蔽特性,时间掩蔽特性
12.5 MPEG-1的层1、2和3编码器的声音输出速率范围分别是多少? 层1:384 kb/s
层2:256~192 kb/s
层3:128~112 kb/s
12.6 MPEG-1的声音质量是: AM FM 电话 near-CD CD-DA □ AM □ FM □ 电话√□ near-CD □ CD-DA
12.7 什么叫做5.1声道立体环绕声?什么叫做7.1声道立体环绕声? (1) “5.1环绕声”也称为“3/2-立体声加LFE”,其中的“.1”是指LFE声道。它的含义是
播音现场的前面可有3个喇叭声道(左、中、右),后面可有2个环绕声喇叭声道,LFE是低频 音效的加强声道。
7.1声道环绕立体声与5.1类似。 参见图12-19。
12.8 简述MPEG-2 AAC的特性。 MPEG-2 AAC是MPEG-2标准中的一种非常灵活的声音感知编码标准。它使用听觉系统的掩蔽
特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩 蔽掉。
AAC支持的采用频率可从8 kHz到96 kHz,AAC编码器的音源可以是单声道的、立体声的和多
声道的声音。AAC标准可支持48个主声道、16个低频音效加强通道LFE、16个配音声道或者
叫做多语言声道和16个数据流。
MPEG-2 AAC在压缩比为11:1,即在每个声道的数据率为(44.1×16 )/11=64 kb/s,而5个声
道的总数据率为320 kb/s的情况下,很难区分还原后的声音与原始声音之间的差别。与MP
EG-Audio层2相比,MPEG-2 AAC的压缩率可提高1倍,而且质量更高,与MPEG的层3相比,在
质量相同的条件下数据率是它的70%。
12.9 什么叫做自然声音?什么叫做合成声音?
自然声音通常是指人、动物等发出的声音、弹奏乐器或其他音源自然发出的声音。
合成声音通常指合成器生成的声音,如MIDI。
12.10 什么叫做TTS?至少列举TTS的3个潜在应用例子。
通过话音合成设备自动地把基于文字的数据转换为声音输出的一种技术。文语转换的最终
目标是要使计算机像人一样输出清晰而又自然的声音,也就是说,根据文本的内容可以不
同的情调来朗读任意的文本。TTS是一个十分复杂的系统,涉及到语言学、语音学、信号处
理、人工智能等诸多的学科。尽管现有的TTS系统结构各异,转换方法不同,但是基本上可
以分成两个相对独立的部分:①文本分析,通过对输入文本进行词法分析、语法分析,甚
至语义分析,从文本中抽取音素和韵律等发音信息。②语音合成,使用从文本分析得到的
发音信息去控制合成单元的谱特征(音色)和韵律特征(基频、时长和幅度),送入声音合成
器(软件或硬件)产生相应的语音输出。
通过电话访问信息,朗读文本,盲人计算机等。
第13章MPEG电视
13.1 电视图像数据压缩的依据是什么?
根据人的视觉特性和电视图像数据自身的冗余特性。
注:人的视觉系统具有的两种特性可以用来压缩电视图像数据。一是人眼对色度信号的敏
感程度比对亮度信号的敏感程度低,利用这个特性可以把图像中表达颜色的信号去掉一些
而使人不察觉;二是人眼对图像细节的分辨能力有一定的限度,利用这个特性可以把图像
中的高频信号去掉而使人不易察觉。
13.2 MPEG-1编码器输出的电视图像的数据率大约是多少? 1.15 Mb/s
13.3 MPEG专家组在制定MPEG-1/-2 Video标准时定义了哪几种图像?哪种图像的压缩率最
高?哪种图像的压缩率最低? (1) MPEG专家组定义了三种图像:帧内图像I(intra),预测图像P(predicted )和双向预测
图像B (bi-directionally interpolated )。
(2) 双向预测图的压缩率最高,帧内图像的压缩率最低。
13.4 有人认为“图像压缩比越高越好”。你对这种说法有何看法?
在图像压缩算法中,为了获得比较高的压缩率,通常要采用有损压缩。这就意味压缩率越
高,图像的质量损失越大,重构图像的质量将会越低。
13.5 有人说“MPEG-1编码器的压缩比大约是200:1”。这种说法对不对?为什么?
不对。理由:(1)电视图像的子采样(4:1:1)不是MPEG编码器的功能,(2)电视图像画面尺
寸(如PAL制720×576)的降采样(变成360×288)也不属于MPEG编码器的功能。 13.6 说明电视规格MP@ML和HP@HL各自的含义。
MP@ML (Main Profile, Main Level)指的是具有这种特性的电视:分辨率为720×576×30
,子采样格式为4:2:0,位速率可高达15 Mb/s。
HP@HL (High Profile, High Level)指的是具有这种特性的电视:分辨率为1920×1152×
60,子采样格式为4:2:0或者4:2:2,位速率可高达80 Mb/s。 13.7 电视图像的空间分辨率和时间分辨率是什么意思?
空间分辨率:图像的尺寸。例如,PAL制图像尺寸:720×576,360×288。 时间分辨率:图像的帧数/每秒钟。例如,PAL制电视图像的时间分辨率为30帧/秒,NTSC电
视图像的时间分辨率为25帧/秒,电影图像的时间分辨率为24帧/秒。 第14章只读光盘存储器
14.1 只读光盘是如何记录“0”和“1”的?
只读光盘通常是指CD/DVD系列只读光盘。在盘上压制凹坑的机械办法来记录“0”和“1”
。凹坑的边缘代表“1”,凹坑和非凹坑的平坦部分代表“0”,凹坑的长度和非凹坑的长
度都代表有多少个“0”。
14.2 CD-DA的音乐信号的采样频率为什么选择44.1 kHz?
人耳朵(因人而异)能听到的声音信号频率范围是20~20 000 Hz,为了避免高于20 000 Hz
的高频信号干扰采样,在进行采样之前,需要对输入的声音信号进行滤波。考虑到滤波器 在
20 000 Hz的地方大约有10%的衰减,所以可以用22 000 Hz的2倍频率作为声音信号的采样
频率。但是,为了能够与电视信号同步,PAL电视的场扫描为50 Hz,NTSC电视的场扫描为
60 Hz,所以取50和60的整数倍,选用了44 100 Hz作为激光唱盘声音的采样标准。
14.3 激光唱盘音乐信号的样本位数是16,它的信噪比是多少?如果样本位数提高到20,它
的信噪比是多少?