训练步骤详解-第一文库 | 海量文档资源下载与分享平台

在线预览结束，喜欢就下载吧，查找使用更方便

18 金币

下载此文档

/ 3

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

HTK侗鹌鞯慕⒑褪褂?-第一步：准备数据以下五个步骤就是准备数据的全过程。Step1.创建语法和网络文件如果要识别的是一些简单的拨号命令，如：DialthreethreetwosixfivefourDialninezerofouroneohninePhoneWoodlandCallSteveYoung按照这些命令编辑语法文件，格式如下：$digit=ONE|TWO|THREE|FOUR|FIVE|SIX|SEVEN|EIGHT|NINE|OH|ZERO;$name=[JOOP]JANSEN|[JULIAN]ODELL|[DAVE]OLLASON|[PHIL]WOODLAND|[STEVE]YOUNG;(SENT-START(DIAL<$digit>|(PHONE|CALL)$name)SENT-END)假设语法文件名为gram,则利用HTK中的HPARSE工具创建单词网络文件wdnet,命令格式为：HParsegramwdnet注：wdnet的具体形式见E:\HMM\HTKSample\WordNet表示支路，表示节点内容，表示支路起始，表示支路结束。其中J表示支路，I表示节点内容，S表示支路起始，E表示支路结束。的目的是为了求得词词间的转移概率，以及建立三因子模型时考虑因子间的连接。作wdnet的目的是为了求得词词间的转移概率，以及建立三因子模型时考虑因子间的连接。Step2.创建词典文件该文件创建比较复杂。所用的命令格式为：HDMan-m-wwlist-nmonophones1-ldlogdictbeepnames其中，wlist是单词列表文件，它有着自己的格式，最初可以将它写成文本格式的文件，例如：S0001ONEVALIDATEDACTSOFSCHOOLDISTRICTSS0002TWOOTHERCASESALSOWEREUNDERADVISEMENTS0003BOTHFIGURESWOULDGOHIGHERINLATERYEARSS0004THISISNOTAPROGRAMOFSOCIALIZEDMEDICINEetc然后，利用HTK提供的工具prompts2wlist可以将其转化为符合要求的wlist文件，在这个文件中，每行只有一个单词，而且按照字母顺序排列，而且在面向任务的识别器中，单词的范围是限定的。训练\文件实例文件实例\wlist.txt注：wlist的具体形式见E:\htk\htk训练文件实例wlist内的每个单词占一行，这样便于加入停顿信息。内的每个单词占一行，这样便于加入停顿信息。接着，有了源词典beep和names，从这些词典中，可以搜寻到wlist文件里所列出的各个单词的发音，beep是一般单词的发音词典，可以下载得到。而names则是手工创建的文件，给出了识别任务里所用到的姓名的发音。-ldlog将把已建立的辞典的各种统计信息输出到日志文件dlog中去，这些信息可以告诉你是否遗漏某些单词。-nmonophones1则把用到的音子都输出到文件monophones1中，在以后的步骤中，每一个这里的音子都会相应地被创建一个HMM模型。在以后的步骤中，模型。最后是词典文件dict的一般格式：WORD[outsym]p1p2p3....意思就是，单词WORD的发音是按照音子序列p1p2p3的顺序发出的，当单词被识别出来，它就以方括号里面的字串作为结果输出。[outsym]是个可选项，如果没有它，则单词以本身的形式输出；如果有但是方括号里面为空，则什么也不输出。训练\文件实例文件实例\dict.txt注：wlist的具体形式见E:\htk\htk训练文件实例之所以建立这样一个小范围的词典，是为了缩小搜索空间。之所以建立这样一个小范围的词典，是为了缩小搜索空间。monophones1的具体形式见E:\htk\htk训练文件实例训练\文件实例文件实例\monophones1.txt只是便于查看用到的因子。建立monophones1只是便于查看用到的因子。Step3.录制数据HSLab提供录音和标注的功能。它的格式为：HSLab文件名，可以用来录制训练数据和测试数据。训练数据的数据源可以来自已有的语音数据库，而测试数据的数据源可以利用HSgen工具从现成的网络文件和词典文件中产生，它能够随机地通过单词网络并输出每一个遇到的单词，其命令格式为：HSGen-l-n200wdnetdict，其中-n200表示产生句子的数目为200个。Step4.创建转换文件为了训练HMM模型，每一个训练数据文件都必须有一个相关联的音子层次上的转换。由于训练数据不能够自展成一系列的转换模型，所以需要用一个平稳的方案，得用两次音子转换。第一次转换在词与词之间不加入停顿(sp)，接下来，一旦产生合理的音子模型，一个sp模型