基于区分性原理的汉语语音识别中声调问题的研究-第一文库 | 海量文档资源下载与分享平台

在线预览结束，喜欢就下载吧，查找使用更方便

16 金币

下载此文档

/ 9

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

上海交通大学博士学位论文基于区分性原理的汉语语音识别中声调问题的研究姓名：黄浩申请学位级别：博士专业：电路与系统指导教师：朱杰20081101中文摘要摘要汉语是一种带调语言，声调在汉语语音中具有非常重要的意义。相同的声母和韵母构成的音节随声调的不同而具有完全不同的意义，对应着不同的方块字。特别是当语言模型上下文缺失的情况下，声调在汉语普通话中承担着重要的构字辨义的作用。因此，将声调信息应用于汉语普通话的语音识别系统当中，将会有效地提高识别系统的性能。近年来，基于区分性原理的机器学习方法已成为模式识别特别是自动语音识别研究领域的热门研究方向之一。利用区分性原理在模型训练以及特征优化方面提出的一些方法，在小规模的分类任务以及大词汇连续语音识别系统中都显示了优越的性能。本文以汉语普通话大词汇连续语音识别系统为应用背景，旨在根据汉语声调发音的特点，从区分性原理的角度来讨论汉语语音的声调建模以及声学建模中的声调信息利用问题。回顾了语音识别技术的发展历史，介绍了声调在汉语语音识别中的作用，系统性描述了区分性训练准则以及应用比较成功的区分性模型与方法，并由此提出了不同模型下改进声调识别性能以及利用声调信息改进声学建模性能的区分性方法，为汉语语音识别中声调问题的解决提供了新的研究思路。这些方法可概括如下。首先从区分性训练的角度研究了基于隐马尔可夫模型的声调建模方法。为了提高汉语声调识另Ｈ率，从模型空间中利用区分性训练的参数更新方法对模型参数进行重估。在汉语普通话中，由于协同发音的存在，连续语音的声调识别较孤立语音声调识别复杂。声调协同发音体现为对当前音节的声调感知高度依赖于上下文声调。基于上述原理，在特征空间的区分性训练方面，提出区分性声调特征提取方法。该方法根据区分性线性特征补偿的思想，根据区分性目标函数训练得到的线性变换，将上下文基音频率进行映射并补偿至当前音节基音频率特征。实验表明区分性声调特征提取显著提高了声调识别率，声调特征提取基础上的模型参数联合训练进一步提高了声调识别的性能。并从识易唾率以及特征变换参数的角度进行分析，说明特征提取方法与传统声调特征归一化的本质不同。条件随机场（ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ，ＣＲＦｓ）是近年来在自然语言处理领域使用的成功的数学模型。论文采用条件随机场的一种扩展－隐条件随机场对汉语语音声调进．ｉ．上海交通大学博士学位论文行显式建模，提出一种对传统动态特征的扩展－广义动态特征水更好地抽捉基音频率曲线的动态变化。声调识别实验表明采用相同的特征和结构，隐条件随机场较最大似然训练的隐马尔可夫模型声调识别率有显著提高，加入广义动态特征之后声调识别率有一致性改进。隐条件随机场区别于ＨＭＭ的重要特性在于无须对特征采用统一的利用方式，这使得该模型非常适合于处理汉语语音中基音频率在浊音段连续、清音段不连续的声学现象。提出了隐条件随机场对断续昂进行直接建模的隐式声调建模方法，带调音节分类实验表明在隐条件随机场下对断续基音频率序列的直接建模较使用清音段平滑硒特征的识别率有明显的提高，该实验结果对利用隐条件随机场在大词汇连续语音识别系统下，声学建模中对断续基音频率序列的直接建模提供初步的实验依据。讨论了大间隔（１ａｒｇｅｍａｒｇｉｎ）高斯混合模型的声调建模方法，根据大间隔区分性训练准贝Ｂ对模型参数进行区分性训练。对于参数的更新，针曰冢眩酰幔螅椤危澹鳎簦铮钐荻认陆捣椒ㄊ樟菜俣嚷娜钡悖岢鲆恢掷┱梗拢幔酰?Ｗｅｌｃｈ（ｅｘｔｅｎｄｅｄＢａｕｍＷｅｌｃｈ，ＥＢＷ）形式的大间隔高斯混合模型的参数更新方法，该方法借助弱辅助函数的原理对高斯参数进行优化，实验表明该方法与基于Ｑｕａｓｉ－Ｎｅｗｔｏｎ的梯度方法相比只需要几次迭代就可以达到相同甚至更高的识别结果。另一方面，对于基于段特征的高斯混合模型，选取什么样的特征能够达到更好的识别率往往需要反复试凑得到最优的识别结果。本文利用线性判别分析方法来对声调特征进行降维，通过线性判别分析得到更加适合于声调区分的段特征，声调识别实验上表明在维数缩减特征基础上的高斯混合声调模型，较传统的重叠双音调高斯混合模型在声调识别性能方面有明显的提高，这表明线性判别分析获得的特征要优于人工选取的超音段声调特征。最后讨论了一种区分性模型权重的训练方法，将显式训练的声调模型加入大词汇量连续语音识另Ｈ系统中来提高汉语连续语音识别率。该方法根据最小音子错误Ｃｍｉｎｉｍｕｍｐｈｏｎｅｅｒｒｏｒ，ＭＰＥ）准则，区分性地训练模型相关的概率权重。利用这些权重对传统基于传统谱特征的ＨＭＭ模型概率以及声调模型概率进行加权，通过调整模型之间的作用程度提高系统识别率。推导了利用扩展Ｂａｕｍ－Ｗｅｌｃｈ算法的权重更新公式。根据汉语上下文相关声学建模的特点，由此提出了带调音节相关、韵母模型相关，模型组合相关和整词