研究生多媒体技术课件音频处理技术3-第一文库 | 海量文档资源下载与分享平台

在线预览结束，喜欢就下载吧，查找使用更方便

16 金币

下载此文档

/ 3

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

第二章媒体信息处理技术2.1音频处理技术2.1.1音频数字化处理1.声音的基本描述2.音频信号的数字化过程3.数字音频的主要技术指标2.1.2MIDI音乐合成1.数字音乐生成方法2.MIDI音频处理过程2.1.3多媒体声音卡2.1.4音频文件格式2.1.5计算机语音识别技术2.1音频处理技术基本内容:音频数字化处理,MIDI音乐合成,多媒体声音卡,音频文件格式2.1.1音频数字化处理1.声音的基本描述①波形声音:基于振动波(信号化)描述的声音;可形成数字波形文件②语音:人的声道发出的声音-语义化描述的语言形式③音乐:通过乐谱规范表达的乐曲-符号化描述的声音;可形成数字音乐文件(1)声音的模拟信号表示方法Sound=Bline+A×f(t)①基线Bline:提供一个测量模拟信号的基准点②周期T:两个相邻信号的波峰(或波谷)之间的时间间隔,用于表示信号的快慢即声音发生的频率f;f=1//T(Hz)③振幅A:波形峰点(或谷点)与基线之间的距离用于表示信号的强弱?瓷舻南於?(2)声音的质量特性SQuality=(Tone,Volume,TQuality)①音调(Tone):声音频度与音域宽窄程度,与频率f有关.音调可按频率分为:·次声(f20KHz)②音量(Volume):声音响度亦或音强,与振幅A成正比.③音质(ToneQuality):声音在听觉上的优美程度,亦称音色;是振幅与频率的优化组合(基音+谐音)声音的质量通常以音频信号的带宽来衡量音频(Audio):声音的同义词频率范围为:20Hz~20KHz人的声带一般为:50~500Hz常见的音频带宽:①电话音频:200Hz~3.4KHz②无线电广播调幅(AM)声:50Hz~7KHz③无线电广播调频(FM)声:20Hz~15KHz④高保真(HiFi)立体声:20Hz~20KHz图4-4音频信号的带宽2.音频信号的数字化过程①放大:使信号幅度达到可采集与变换要求;并滤除高频干扰和噪声②采样:模拟信号离散化以固定的采样周期T对波形Xa(t)的幅值进行抽样,得到一个离散的序列X(n).采样值:X(n)=Xa(nT);N=1,2,3,......(离散点的个数),T=1//f,f为采样频率图4-1模拟信号、离散信号及数字信号③量化:离散信号数字化把每个采样值(模拟量)转换成数字量,并用n个二进制数表示;n越大,量化精度越高量化值:量化误差:注意点:a.实现量化的过程称A//D变换b.均匀量化后的信号称脉冲编码调制(PCM)信号c.A//D变换一般是均匀量化;因而称PCM量化④编码:数字信号格式化把每个量化值表示成二进制存储位形式的字长8位字长≡8bit(1个Byte)若要进行数据压缩编码时,需采用相关算法及数据格式表示常用的音频编码方法:波形编码法和参数编码法.一.波形编码法分三类:1.PCM脉冲编码调制:直接对声音信号做模/数转换,用一组二进制数字编码表示,得到未压缩的音频数据.2.DPCM差分脉冲编码调制:通过只传输声音的预测值和样本值的差值来降低音频数据的编码率的一种方法,采用预测编码技术,实现音频数据的压缩编码.3.ADPCM自适应差分脉冲编码调制:在DPCM编码中加入自适应的方法.二.参数编码法:通过建立声音的产生模型(如语音发声模型),将声音信号以模型参?硎?再对参数进行编码.例:采样频率44.kHz,量化位数16位,双通道立体声一张光盘650M存储量,则一第激光唱盘(CD-DA)能够播放多少分钟.编码速率=44.1*1000*16*2=1.41Mb=176KB/s650MB/176KB/s=61.55min3.数字音频的主要技术指标(1)采样频率fc:单位时间间?采样周期)内所采集的样本数fc越高,数字化后的信号质量就越高;但存储量也越大(2)量化字长:用采样周期分割样本波形的振幅空间的等分数,表示为采样值的二进制位数;因而称采样精度或样本字长.量化字长(位数)与采样值的精度成正比.关系:4bit16级(n=16),8bit256级,16bit65536级.(3)声道数:一次采样所记录的声音波形个数单声道-产生一个声音波形;双声道-产生两个声音波形(立体声)声道数增加,将使存储容量及开销成倍增加.计算公式:存储量=(采样频率×量化字长×声道数)//8(Byte//s)举例:计算采样频率22.05kHz,量化位数为8位的双声道立体声信号,求每分钟的存储量.采样频率f(单位:Hz)量化字长n(单位:bit)声道数为s(单位:个)则:存储量v=(f.n.s)/8=2.64MB采样定理:若fc≧2fsmax(fsmax为最大信号频率),则可保证量化后的信号具有还原为模拟信号的能力.例:人耳听觉的上限频率为20KHz;则fc≧40KHz2.1.2MIDI音乐合成音乐设备数字接口MID