音频处理技术与应用-第一文库 | 海量文档资源下载与分享平台

免费试读已结束，剩余 22 页请下载文档后查看

10 金币

下载此文档

/ 32

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

（2）声音信号的心理学特征人们感知到的声音特征称为心理学特征。音调：在音乐中又叫音高，是由发声物体的振动频率决定，振动越快（即频率越大），音调越高，振动越慢，音调越低。音调的高低与声音基频的对数（20*log）成线性关系。基频越低，给人的感觉是声音越低沉，基频频率增加一倍，在音乐上就叫升高了一个八度。音色：这是一个主观评价声音的量，声音的音色取决于声音的频谱结构，一般高次谐波越丰富，音色越明亮并具有穿透力。响度：人耳对声音强弱的感觉程度，主要取决于振幅和声压。通常振幅越大声音越响，其次人耳距离声源越远，声音越小。（3）声音质量的评价声音质量与带宽有关，频率范围越宽，声音质量越高。1）声音质量分级：按照声音信号的频率范围将声音质量分为5级。3．音频信号的表示声音信号通过麦克风等设备转换成电信号以后称之为音频信号。（1）规则音频信号规则音频（Audio）是带有语音、音乐和音效的有规律的音频信号，承载了一定的信息。语音：是语言的载体，有丰富的语言内涵，是人类交流的信息载体。音乐：是一种规范的符号化的声音。音效：是指自然界中的其他各种声音效果，如掌声、雷鸣声，爆破声等。不规则声音：不包含任何信息的声音，比如噪声。（2）音频信号的表示1）音频信号的数学表示其中：ω0表示声音的基音，决定了音调的高低，nω0是ω0的n次谐波分量，代表了声音的泛音，决定了声音的音色，An是声波的振幅，表示声音的强弱。2）音频信号的波形表示声音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的，属于模拟信号。（1）采样声音信号在时间轴上的离散化，即每隔相等的一段时间抽取一个信号样本。采样频率：每秒采样的次数。奈奎斯特理论（Nyquisttheory）：采样频率不应低于声音信号最高频率的两倍，这样就能把以数字声音还原成原来的声音，称为无损数字化。fs>=2fmax电话话音信号的最高频率约为3.4kHz，所以采样频率取为8kHz。（2）量化将连续的声音信号的幅度离散化。也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的，称为线性量化，否则为非线性量化。采样精度：即量化的位数，位数越多量化等级数也越多，所能表示的声波幅度的动态范围也越大，当然需要的存储空间也越大。（3）编码就是用一组二进制码组来表示每一个有固定电平的量化值，或者说将量化值转换成二进制码组。典型的音频编码方法：脉冲编码调制法（PCM）。（4）数字音频的数据量数据量=采样频率*采样精度*采样时间*声道数/8（字节数）单声道：一次只产生一组声波数据，立体声：一次产生两组声波数据，分别送往左声道和右声道，根据声音到达人耳的时间差产生空间立体效果，因此立体声声波数据所需存储空间是单声道的一倍。例2.1计算一分钟未压缩的高保真立体声数字声音数据的大小。60*（44100*16*2）/8=10.09MB一首未经压缩的4分钟的歌曲文件的大小约为40MB，那么一个容量为512MB的MP3播放器也只能播放12首这样的歌曲。（1）电话质量的语音压缩标准（2）调幅广播语音压缩标准：G.722（3）高保真立体声的宽带音频压缩标准1．WAV文件：波形文件，微软开发，需要的存储量大，多用于存储简短的声音片段和旁白。2．MIDI文件：记录的是生成音乐的指令，MIDI文件短小。由于MIDI记录的并不是真正的声音，所以不同的声卡，不同软波表，不同硬件音源的音色是不相同的，相同的MIDI文件在不同的设备上播放也会有不同的效果。MIDI文件适合作为背景音乐来播放。3．MP3文件：是MPEG音频第3层的简称，有损压缩，压缩比达12:1。MP3利用人耳的掩蔽特性，削减音频中人耳听不到的成分，同时尽可能地维持原来的声音质量。4．RA文件：属于RealMedia的音频部分，采用流式传输方式，可以在非常低的带宽下提供足够好的音质让用户能在线聆听。5．WMA文件：WindowsMedia的音频部分。无损压缩，支持多声道编码。6．AC3文件：又叫杜比数码环绕立体声，压缩比10:1，提供的环绕声系统由5个全频域声道和1个超低音声道组成，称为5.1声道，一般作为DVD的伴音。2.1.3数字音频处理技术2）语音识别系统分类对说话人说话方式的要求孤立字（词）语音识别系统连接字语音识别系统连续语音识别系统。对说话人的依赖程度特定人语音识别系统非特定人语音识别系统词汇量大小小词汇量语音识别系统中等词汇量语音识别系统大词汇量语音识别系统无限词汇量语音识别系统。语音合成技术：指利用计算机合成语音信号的技术，使计算机能够产生高清晰度和高自然度的连续语音，能够具有类似普通人的说话能力。语音合成的