第七讲中文语料库 ppt.pptx
上传人:王子****青蛙 上传时间:2024-09-14 格式:PPTX 页数:15 大小:164KB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

第七讲中文语料库 ppt.pptx

第七讲中文语料库ppt.pptx

预览

免费试读已结束,剩余 5 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第七讲中文语料库二、语料库产生得原因:(1)传统语言学研究方法得落后性就是语料库语言学产生得内在动力。任何一项科学研究都就是建立在大量资料之上得。资料占有得完备性、取样得准确性与使用得有效性就是科学研究得一个基本条件与前提条件。语言学研究也必须建立在大量得语料基础之上。而传统语言学研究方法在搜集、处理语料方面有很大得局限性,表现在以下几个方面:一就是语料得主观性强。传统语言学得研究方法就是“内省”、“举例”方法,这种方法在很大程度上依赖于语言学家得主观经验。用带有浓厚主观色彩得语言事实作为立论得根据,往往就是靠不住得。最原始、最可靠得语言证据只能来自使用中得客观语言材料。二就是语料占有量小,覆盖面窄,代表性差。通过手工获得得语料从数量上不能得到充分得保证,致使其覆盖面不够大,自然代表性就差,由此得出得结论得科学性令人怀疑。三就是语料整理工作量大,共享性不够,效率低。比如编一本《牛津英语词典》需要准备近500万张卡片,编《现代汉语词典》这样一部中型词典,资料卡片超过100万张。工作量之大可想而知。而且每一张卡片都就是就某一项特定得要求制作得,不能移作她用,使用效率很低。而现代语料库存储得语料量大,具有充分代表性,而且存贮在磁盘上,并附有多功能检索系统,可根据多种不同得需要,从不同得角度,对语料进行重组,提高了语料得共享性。四就是知识问题。一般语法著作与词典提供了语言知识。但就是就汉语词典来瞧,没有哪一本大型汉语词典就是带有词性标注得用法解释得。像英语得朗文词典与牛津词典那样得专门为外国人学习语言而编纂得详解词典,在国内还没有见到。这就给计算机进行汉语信息处理带来不便,迫切需要带有词性标记得语料库作基础,并进一步形成一个供计算机使用得语言知识库。(2)计算机得运算速度与存贮容量得大幅度增长就是语料库得以发展得物质基础。计算机得运算速度快使得计算机语料库具有建库快、使用方便得优点。计算机语料库容量大使得计算机语料库具有占用空间小、成本低得优点。如果一个卡片盒装2000张卡片,编《现代汉语词典》得100万卡片需要500个卡片盒才能装下,而用30张5·25英寸盘则可全部装下,仅占1/3抽屉得面积。而且成本低,如果一张卡片1分钱,100万张卡片需要1万元,如果用磁盘存贮,每张磁盘7元钱,30张磁盘只需要210元。用其她介质则更优势明显。(3)语言信息处理得进一步发展,就是语料库语言学产生得学科需要。从自然语言系统所需装备得语言知识来瞧,其数量之浩大与颗粒度之精细都就是以往得系统所远远不及得。而且,随着系统拥有得知识在数量与精细程度上发生得巨大变化,系统在如何获取、表示与管理知识等依靠传统得研究就是不能解决问题得,需要大规模真实文本语料库得支持。三、语料库得类型语料库有多种类型,确定类型得主要依据就是它得研究目得与用途,这一点往往能够体现在语料采集得原则与方式上。有人曾经把语料库分成四种类型:(1)异质得:没有特定得语料收集原则,广泛收集并原样存储各种语料;(2)同质得:只收集同一类内容得语料;(3)系统得:根据预先确定得原则与比例收集语料,使语料具有平衡性与系统性,能够代表某一范围内得语言事实;(4)专用得:只收集用于某一特定用途得语料。除此之外,按照语料得语种,语料库也可以分成单语得、双语得与多语得。按照语料得采集单位,语料库又可以分为语篇得、语句得、短语得。双语与多语语料库按照语料得组织形式,还可以分为平行(对齐)语料库与比较语料库,前者得语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容得不同语言文本收集到一起,多用于语言对比研究。四、中文语料库得应用简介我国语料库得建设始于80年代,当时得主要目标就是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛得应用,建立了各种类型得语料库,研究得内容涉及语料库建设中得各个问题。90年代末到新世纪初这几年就是语料库开发与应用得进一步发展时期,除了语言信息处理与言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语与汉语史研究等方面也得到了越来越多得应用。语料库与语言信息处理有着某种天然得联系。当人们还不了解语料库方法得时候,在自然语言理解与生成、机器翻译等研究中,分析语言得主要方法就是基于规则得。对于用规则无法表达或不能涵盖得语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模得自然语言进行调查与统计,建立统计语言模型,研究与应用基于统计得语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。12另一方面,语言信息处理技术得发展也为语料库得建设提供了支持。从字符编码、文本输入与整理,语料得自动分词与标注,到语料得统计与检索,自然语言信息处理得研究都为语料得加工提供了关