如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
主要内容中文分词概况主要内容中文分词的一大挑战主要内容本文主要方法本文主要方法——模型及特征本文主要方法——模型及特征本文主要方法——模型及特征本文主要方法本文主要方法——上下文及语义信息NLP&MT本文主要方法跨领域分词的分词算法流程如下:NLP&MTNLP&MTNLP&MT本文主要方法实验数据:系统词典是从2000年1-6月份的人民日报中抽取出来的,词性体系为相应的北大词性体系,词典中共含有85,000个词。本文采用的语义资源是同义词词林(扩展版),共包含77,343条词语。http://ir.hit.edu.cnSIGHAN2010的跨领域简体中文训练和测试语料。训练基于词图的CRFs模型时,所用的语料是有词性标注的评测语料(1998年1月份人民日报)。NLP&MT该方法用基于字标注的CRFs模型得到3-Best路径,将路径中包含的所有候选词添加到词图中,充分利用篇章的上下文信息和同义词语义信息,在词的层面上从词图中选择代价最小的路径作为最终的分词结果。该方法很好地发挥了基于字标注的方法在发现未登录词上的能力,而且在分词过程中充分利用词汇的领域性信息,提高了领域性分词的分词结果。用Bakeoff2010简体中文测试语料进行开式测试,结果表明:该方法在四个测试领域中的三个领域的F值和OOV的召回率好于2010参加评测的最好成绩。本文获国家自然科学基金(No.61173100,No.61173101)资助。主要内容参考文献感谢各位专家请批评指正