一种改进的线性区分分析方法及其在汉语数码语音识别上的应.doc
上传人:sy****28 上传时间:2024-09-14 格式:DOC 页数:23 大小:95KB 金币:18 举报 版权申诉
预览加载中,请您耐心等待几秒...

一种改进的线性区分分析方法及其在汉语数码语音识别上的应.doc

一种改进的线性区分分析方法及其在汉语数码语音识别上的应.doc

预览

免费试读已结束,剩余 13 页请下载文档后查看

18 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

一种改进的线性区分分析方法及其在汉语数码语音识别上的应用史媛媛,刘加,刘润生(清华大学电子工程系,北京100086)摘要:尽管汉语数码语音识别只涉及十个数字,但由于不同数字的发音存在相同或相似的声母或韵母,造成汉语数码语音之间的混淆性很大.采用通常的隐含马尔科夫模型(HMM)作为汉语数码语音识别模型难以得到很高的识别率.为了解决汉语数码之间的混淆问题,提高汉语数码语音识别性能,本文在隐含马尔科夫模型的状态层次上采用线性区分分析方法,将不同状态之间容易混淆的特征样本构成混淆模式类,针对混淆模式类进行线性区分分析.通过线性区分变换,在变换特征空间中仅保留那些能够有效区分该混淆类别的特征参数.这种基于状态的线性区分分析有效地提高了模型对混淆数码的区分能力.实验表明即使采用状态数很少的粗糙识别模型,也能很大幅度提高模型的识别性能;经过线性区分变换优化后的汉语数码识别模型,孤立汉语数码语音识别率可以达到9932%.关键词:线性区分分析(LDA);汉语数码语音识别;区分变换中图分类号:TN912文献标识码:A文章编号:03722112(2002)07095905AnImprovedLinearDiscriminantAnalysisforMandarinDigitSpeechRecognitionSHIYuanyuan,LIUJia,LIURunsheng(DepartmentofElectronicEngineering,TsinghuaUniversity,Beijing100084,China)Abstract:ItisfoundthatthephoneticsimilaritiesintheMandarindigitsarethemainreasonsforthedifficultyofMandarindigitrecognition.Inthispaper,animprovedlineardiscriminantanalysis(LDA)basedonthestatesofhiddenMarkovmodels(HMM)ispresented.Therecognitionmodeldiscriminabilityisgreatlyimprovedbygatheringtheconfusiondatatothegivenstatesandthenusingthestatespecificdiscriminativetransformation.Theexperimentsshowthatitincreasestherecognitionrategreatlyevenifthesimplemodelswithinsufficientstatesareused.TherecognitionaccuracyofisolatedMandarindigitsisover9932%afterusingoptimallineardiscriminativetransformation.Keywords:LDA;Mandarindigitspeechrecognition;discriminativetransformation1引言数码是人们日常交互与信息查询中最重要的输入信息之一.数码语音识别无论在大词表语音识别系统,还是在小词表语音识别系统中都占有重要地位,具有重要的应用价值.由于汉语数码语音发音短,并且存在易混语音集合,因此汉语数码语音的识别比英文数码语音要困难.如何提高汉语数码音识别性能一直是语音识别中研究热点之一.进行语音识别特征参数选择和变换,从中挑选出区分能力较强的特征分量,去掉冗余的特征分量,是提高识别模型的区分性能的重要方法之一.线性区分分析(LDA)方法是其中一种提高参数区分能力的有效方法,也是模式识别理论提取鉴别特性的重要理论之一.本文将线性区分分析用于汉语数码语音识别系统,改进汉语数码语音识模型的鉴别能力.线性区分分析采用线性变换矩阵将原始的n维特征矢量线性变换成m维(m区分变换,可以消除特征分量的线性相关性;从变换后的特征参数中提取出最有效的识别特征分量,去掉没有鉴别能力的特征分量,提高特征的鉴别性能;变换空间中的类间散度对类内散度的比率增加,提高了类别的可分离性[1].此外,特征矢量的维数降低,有利于减少对训练语音数据的要求,使识别模型得到充分的训练,有利于提高识别系统的稳健性.Hunt首先将线性区分分析用于语音识别[2,3],随后相当多的语音识别系统使用了线性