训练步骤详解.doc
上传人:sy****28 上传时间:2024-09-14 格式:DOC 页数:3 大小:23KB 金币:18 举报 版权申诉
预览加载中,请您耐心等待几秒...

训练步骤详解.doc

训练步骤详解.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

18 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

HTK侗鹌鞯慕⒑褪褂?-第一步:准备数据以下五个步骤就是准备数据的全过程。Step1.创建语法和网络文件如果要识别的是一些简单的拨号命令,如:DialthreethreetwosixfivefourDialninezerofouroneohninePhoneWoodlandCallSteveYoung按照这些命令编辑语法文件,格式如下:$digit=ONE|TWO|THREE|FOUR|FIVE|SIX|SEVEN|EIGHT|NINE|OH|ZERO;$name=[JOOP]JANSEN|[JULIAN]ODELL|[DAVE]OLLASON|[PHIL]WOODLAND|[STEVE]YOUNG;(SENT-START(DIAL<$digit>|(PHONE|CALL)$name)SENT-END)假设语法文件名为gram,则利用HTK中的HPARSE工具创建单词网络文件wdnet,命令格式为:HParsegramwdnet注:wdnet的具体形式见E:\HMM\HTKSample\WordNet表示支路,表示节点内容,表示支路起始,表示支路结束。其中J表示支路,I表示节点内容,S表示支路起始,E表示支路结束。的目的是为了求得词词间的转移概率,以及建立三因子模型时考虑因子间的连接。作wdnet的目的是为了求得词词间的转移概率,以及建立三因子模型时考虑因子间的连接。Step2.创建词典文件该文件创建比较复杂。所用的命令格式为:HDMan-m-wwlist-nmonophones1-ldlogdictbeepnames其中,wlist是单词列表文件,它有着自己的格式,最初可以将它写成文本格式的文件,例如:S0001ONEVALIDATEDACTSOFSCHOOLDISTRICTSS0002TWOOTHERCASESALSOWEREUNDERADVISEMENTS0003BOTHFIGURESWOULDGOHIGHERINLATERYEARSS0004THISISNOTAPROGRAMOFSOCIALIZEDMEDICINEetc然后,利用HTK提供的工具prompts2wlist可以将其转化为符合要求的wlist文件,在这个文件中,每行只有一个单词,而且按照字母顺序排列,而且在面向任务的识别器中,单词的范围是限定的。训练\文件实例文件实例\wlist.txt注:wlist的具体形式见E:\htk\htk训练文件实例wlist内的每个单词占一行,这样便于加入停顿信息。内的每个单词占一行,这样便于加入停顿信息。接着,有了源词典beep和names,从这些词典中,可以搜寻到wlist文件里所列出的各个单词的发音,beep是一般单词的发音词典,可以下载得到。而names则是手工创建的文件,给出了识别任务里所用到的姓名的发音。-ldlog将把已建立的辞典的各种统计信息输出到日志文件dlog中去,这些信息可以告诉你是否遗漏某些单词。-nmonophones1则把用到的音子都输出到文件monophones1中,在以后的步骤中,每一个这里的音子都会相应地被创建一个HMM模型。在以后的步骤中,模型。最后是词典文件dict的一般格式:WORD[outsym]p1p2p3....意思就是,单词WORD的发音是按照音子序列p1p2p3的顺序发出的,当单词被识别出来,它就以方括号里面的字串作为结果输出。[outsym]是个可选项,如果没有它,则单词以本身的形式输出;如果有但是方括号里面为空,则什么也不输出。训练\文件实例文件实例\dict.txt注:wlist的具体形式见E:\htk\htk训练文件实例之所以建立这样一个小范围的词典,是为了缩小搜索空间。之所以建立这样一个小范围的词典,是为了缩小搜索空间。monophones1的具体形式见E:\htk\htk训练文件实例训练\文件实例文件实例\monophones1.txt只是便于查看用到的因子。建立monophones1只是便于查看用到的因子。Step3.录制数据HSLab提供录音和标注的功能。它的格式为:HSLab文件名,可以用来录制训练数据和测试数据。训练数据的数据源可以来自已有的语音数据库,而测试数据的数据源可以利用HSgen工具从现成的网络文件和词典文件中产生,它能够随机地通过单词网络并输出每一个遇到的单词,其命令格式为:HSGen-l-n200wdnetdict,其中-n200表示产生句子的数目为200个。Step4.创建转换文件为了训练HMM模型,每一个训练数据文件都必须有一个相关联的音子层次上的转换。由于训练数据不能够自展成一系列的转换模型,所以需要用一个平稳的方案,得用两次音子转换。第一次转换在词与词之间不加入停顿(sp),接下来,一旦产生合理的音子模型,一个sp模型