语音识别技术与声纹鉴定原理学习PPT教案.pptx
上传人:王子****青蛙 上传时间:2024-09-13 格式:PPTX 页数:197 大小:6.3MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

语音识别技术与声纹鉴定原理学习PPT教案.pptx

语音识别技术与声纹鉴定原理学习PPT教案.pptx

预览

免费试读已结束,剩余 187 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

VoiceRecognition人机交互方式应用领域语音搜索语音搜索语音搜索语音搜索发展前景发展前景VideoDisplay主要问题主要问题语音识别10.1概述语音识别系统分为两个方向:一是根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;二是根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量,以及无限词汇量语音识别系统。不同的语音识别系统,尽管设计和实现的细节不同,但所采用的基本技术是相似的。一个典型的语音识别系统如下页图所示。主要包括预处理、特征提取和训练识别网络。输入10.1.1预处理抗混叠滤波预加重2.端点检测(1)短时平均幅度端点检测中需要计算信号的短时能量,由于短时能量的计算涉及到平方运算,而平方运算势必扩大了振幅不等的任何相邻取样值之间的幅度差别,这就给窗的宽度选择带来了困难,而用短时平均幅度来表示语音能量,在一定程度上可以克服这个弊端。(2)短时平均过零率当离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过零的次数叫做过零率。如果离散时间信号的包络是窄带信号,那么过零率可以比较准确的反应该信号的频率。在宽带信号情况下,过零率只能粗略的反映信号的频谱特性。10.1.2语音识别特征提取孤立词语音识别系统的特征提取一般需要解决两个问题:一个是从语音信号中提取(或测量)有代表性的合适的特征参数(即选取有用的信号表示);另一个是进行适当的数据压缩。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这也是信息压缩的过程。语音信号的特征主要有时域和频域两种。时域特征:短时平均能量、短时平均过零率、共振峰、基音周期等;频域特征:线性预测系数(LPC)、LP倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、Mel频率倒谱系数(MFCC)等。目前已有结合时间和频率的特征,即时频谱,充分利用了语音信号的时序信息;以及基于听觉模型的特征参数提取,如感知线性预测(PLP)分析。1.线性预测系数(LPC)根据语音产生的模型,语音信号S(z)是一个线性非移变因果稳定系统V(z)受到信号E(z)激励产生的输出。在时域中,语音信号s(n)是该系统的单位取样响应v(n)和激励信号e(n)的卷积。语音产生的声道模型是一个可用下式阐述的全极点模型:根据最小均方误差对该模型参数ak进行估计,就得到了线性预测编码(LPC)算法,求得的即为LP系数(p为预测器阶数)。对LPC的计算方法有自相关法(Levinson-Durbin莱文逊-杜宾法)、协方差法、格型法等。计算上的快速有效保证了这一声学特征的广泛使用。2.LPC倒谱系数(LPCC)3.Mel频率倒谱系数(MFCC)这里,MFCC系数的个数L通常取最低的12~16。在谱失真测度定义中通常不用0阶倒谱系数,因为它是反映倒谱能量的。上面所说的在频域进行带通滤波是对能量谱进行滤波,这样做的根据是考虑到一个多分量信号的总能量应该是各个正交分量的能量之和。4.过零峰值幅度(ZCPA)近年来,基于听觉模型的语音特征提取方法在语音识别领域日益受到重视。过零峰值幅度特征ZCPA就是基于人类听觉特性的一种特征。下图给出了基于人耳听觉特性的ZCPA特征提取原理图:ZCPA原理框图该系统由带通滤波器组、过零检测器、峰值检测器、非线性压缩和频率接收器组成。带通滤波器组由16个FIR滤波器组成,用来仿真耳蜗基底膜;过零检测器、峰值检测器、非线性压缩部分则仿真听觉神经纤维。从过零检测器获得频率信息,峰值检测器获得强度信息,经非线性压缩后,用频率接收器合成频率信息和强度信息,最后将16路所获得的信息合成为语音信号的特征。10.1.3语音识别方法模式匹配常用的技术有矢量量化(VQ)和动态时间规整(DTW);统计型模型方法常见的是隐马尔可夫模型(HMM);语音识别常用的神经网络有反向传播(BP)网络、径向基函数网络(RBF)及小波网络。本书重点介绍经典的隐马尔可夫模型及其在语音识别中的应用。模式匹配法用于语音识别共有四个步骤:特征提取、模板训练、模板分类、判决。其原理框图如下:训练过程:输入语音经过预处理后,语音信号的特征被提取出来,首先在此基础上建立所需的模板,这个建立模板的过程称为训练过程。识别过程:根据语音识别整体模型,将输入的语音信号特征与存在的语音模板(参考模式)进行比较,找出一系列最优的与输入的语音相匹配的模板。然后,根据此模板号的定义,通过查表就可以给出计算机的识别结果。动态时间规整(DTW)算法的思想:把未知量均匀地伸长或缩短,直到它与参考模式的长度一致时为止。在时间规整过程中,未知单词的时间轴要不均匀地扭曲或弯折,以便使其特征与模型特征对正。DTW