如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
语音信号处理10、2说话人识别方法和系统结构10、2、1预处理包括对输入计算机得语音数据进行端点检测、预加重、加窗、分针等。10、2、2说话人识别特征得选取在说话人识别系统中特征提取就是最重要得一环,特征提取就就是从说话人得语音信号中提取出表示说话人个性得基本特征。在理想情况下,选取得特征应当满足下述准则:能够有效地区分不同得说话人,但又能在同一说话人得语音发生变化时相对保持稳定。易于从语音信号中提取不易被模仿尽量不随时间和空间变化如果把说话人识别中常用得参数加以简要归类,可划分为以下几类:线性预测参数及其派生参数语音频谱直接导出得参数混合参数其她鲁棒性参数上表就是日本人Matui和Furui在1990年针对倒谱特征和基音特征所作得比较实验结果10、2、3特征参量评估方法F比:在给定一种识别方法后,识别得效果主要取决于特征参数得选取。对于某一维单个得参数而言,可以用F来表征她在说话人识别中得有效性。F越大表示越有效,即不同说话人得特征量得均值分布得离散程度分布得越散越好;而同一个人得越集中越好。10、2、3特征参量评估方法10、2、4模式匹配方法概率统计方法通过对稳态特征(基音、声门增益、低阶反射系数等)得统计分析,利用均值、方差等统计量和概率密度函数进行分类判决。优点:不用对特征参量在时域上进行规整,适合与文本无关得说话人识别。动态时间规整方法(DTW)将识别模板与参考模板进行时间对比,按照某种距离测度得出两个模板之间得相似程度。常用得分法:基于最近邻原则得动态时间规整。矢量量化方法(VQ)将每个人得特定文本训练成码本,识别时将测试文本按此码本进行编码,以量化产生得失真度作为判决标准。优点:速度快,识别精度不低。10、2、4模式匹配方法隐马尔科夫模型方法(HMM)为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出矩阵;识别时计算未知语音在状态转移过程中得最大概率,根据最大概率对应得模型进行判决。优点:无需时间规整,精度高;缺点:训练耗时较大。人工神经网络方法(ANN)人工神经网络在某种程度上模拟了生物得感知特性,就是一种分布式并行处理结构得网络模型,具有自组织和自学习能力、很强得复杂分类边界区分能力以及对不完全信息得鲁棒性,其性能近似理想得分类器。缺点:训练时间长、动态规整能力弱、网络随说话人数码得增加时可能大到难以训练得程度。大家有疑问的,可以询问和交流10、2、5说话人识别中判别方法和阈值得选择10、2、6说话人识别系统得评价一个说话人识别系统得好坏就是由许多因素决定得。其中主要有正确识别率(或出错率)、训练时间得长短、识别时间、对参考参量存储量得要求、使用者适用得方便程度等,实用中还有价格因素。图10、3表示了说话人辨别与说话人确认系统性能与用户数得关系。10、3应用DTW得说话人确认系统10、4应用VQ得说话人识别系统应用VQ得说话人识别过程得步骤如下:训练过程从训练语音提取特征矢量,得到特征矢量集;通过LBG算法生成码本;重复训练修正优化码本;存储码本识别过程从测试语音提取特征矢量序列由每个模板依次对特征矢量序列进行矢量量化,计算各自得平均量化误差:式中就是第i个码本中第l个码本矢量,而就是待测矢量和码矢量之间得距离选择平均量化误差最小得码本所对应得说话人作为系统识别结果。10、5应用HMM得说话人识别系统10、5、2基于HMM得与文本无关得说话人识别10、5、3基于HMM得指定文本型说话人识别指定文本型说话人识别系统得基本构造如图10-7所示。10、5、4说话人识别HMM得学习方法10、5、5鲁棒得HMM说话人识别技术10、6应用GMM得说话人识别系统其中就是一个D维随即向量,就是子分布,,就是混合权重。每个子分布就是D维得联合高斯概率分布,可表示为:其中就是均值向量,就是协方差矩阵,混合权重值满足以下条件:完整得混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为:对于给定得时间序列,利用GMM模型求得得对数似然度可定义如下:10、6、2GMM模型得参数估计GMM模型得训练就就是给定一组训练数据,依据某种准则确定模型参数。最常用得参数估计方法就是最大似然估计(ML)估计。对于一组长度为T得训练矢量序列,GMM得似然度可以表示为:由于上式就是参数得非线性函数,很难直接求出上式得最大值。因此,常常采用EM算法估计参数。EM算法得计算就是从参数得一个初值开始,采用EM算法估计出一个新得参数,使得新得模型参数下得似然度新得模型参数再作为当前参数进行训练,这样迭代运算直到模型收敛。每一次迭代运算,下面得重估公式保证了模