维语对偶词识别的规则分析.ppt
上传人:天马****23 上传时间:2024-09-11 格式:PPT 页数:23 大小:346KB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

维语对偶词识别的规则分析.ppt

维语对偶词识别的规则分析.ppt

预览

免费试读已结束,剩余 13 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

维吾尔语自动分词是维吾尔语信息处理的基础工程,维吾尔语对偶词的自动识别则是维吾尔语自动分词的难点之一。维吾尔语中,内部成分平等连接而形成的词汇单位叫做对偶词。本文首先介绍了对偶词的基本概念以及分析了维吾尔语对偶词的结构特征。然后在字符串匹配算法的基础上,提出了一种基于规则的维吾尔语对偶词的识别算法。引言我们不能把维语的分词和切分词混为一谈,在维语文本中大量的词以“词=词根+附加成分”的形式出现,词根指的是词的基本语义单位,维语附加成份有前接附加成分和后接附加成分,词的切分指的是把词根和附加成分切分开。维语文本中词与词之间没有明显的界限标志,而分词指的是,在不改变文本书写样式的前提下,由机器在维文文本的词与词之间自动加上空格。维语的自动分词将会在双语语料库、文本的自动校对、机器翻译、维语文本检索等等领域扮演重要的角色。本文要研究的是维语中对偶词的识别,是维语自动分词系统的研究一个重要分支。对偶词的概念例如:其中,“-”前面的词表示哈密瓜的意思,“-”后面的词表示西瓜的意思,两个结合起来表示水果的意思。这些词虽然由前后两部分重叠而成的,但是我们把它们看成一体,叫做对偶词。对偶词的结合规则的多而样性和复杂性给本实验的研究带来了不少的困难。因为并非所有中间带“-”词都可以看成是对偶词,也有一些对偶词中间没有“-”,本文的目的就是开发一种针对维语的,基于规则的,对维语中的对偶词进行识别和判断的实际应用系统。基于规则的分词方法在最基本的字符串匹配方法的基础上,本文提出了一种适合于维语对偶词的识别算法思路。使用该方法的优点是:需要的语言资源少,程序实现简单,对自然语言的表达比较深入,具有较强的概括性,表达的知识容易理解。但是,由于自然语言本身的复杂性,在构建规则库的过程中不可避免会出现一些错误,难以保证规则的一致性。基于规则的系统对于规则描述以外的词语无法处理,面向大规模真实文本处理时,可能会产生错误的结果。维语对偶词识别的规则分析表1对偶词的规则库表2特殊对偶词的规则库表3中间带“-”而不能看成对偶词的特殊词的规则库{A}{B,C,D,F,G}//既然是相关词﹑同义词﹑反义词﹑副词和数词﹑它们不能为无意义的词。{A}⊂{E,H}//叠音词和拟声词可以可以构成无意义的对偶词。While{A}⊂{E}→Ae-Ae//当A包含无意义的叠音词的时候,对偶词的符号表达式为Ae-Ae。While{A}⊂{H}→Ah1-Ah2//当A包含拟声词的时候,对偶词的符号表达式为Ah1-Ah2。{C}{A,B,D,E,F,G,H}//无意义的词﹑相关词﹑反义词﹑叠音词﹑时间副词﹑数词和拟声词都不能为同义词。对集合{C}来说﹑对偶词的符号表达式为C1-C2。{E}{B,C,D,F}//相关词﹑同义词﹑反义词和时间副词不能为叠音词。{E}⊂{A,,G,H}//无意义的词﹑数词和拟声词可以构成叠音词。While{E}⊂{A}→Ea-Ea//当E包含无意义词的时候,对偶词的符号表达式为Ea-Ea。While{E}⊂{G}→Eg-Eg//当E包含数词的时候,对偶词的符号表达式为Eg-Eg。While{E}⊂{H}→Eh-Eh//当E包含拟声词的时候,对偶词的符号表达式为Eh-Eh。{G}{A,C,D,H}//无意义的词﹑同义词﹑反义词和拟声词不能为数次。{G}⊂{B,E,F}//数词对偶词的成分可以使相关词﹑叠音词和时间副词。While{G}⊂{B}→Gb1-Gb2//当G包含相关词的时候,对偶词的符号表达式为Gb1-Gb2。While{G}⊂{E}→Ge-Ge/当G包含叠音词的时候,对偶词的符号表达式为Ge-Ge。While{G}⊂{F}→Gf1-Gf2//当G包含时间副词的时候,对偶词的符号表达式为Gf1-Gf2。算法思路输入文本图2维吾尔语对偶词的识别系统界面设计结束语参考文献Thanks