Ontology-based information extraction technology.doc
上传人:sy****28 上传时间:2024-09-12 格式:DOC 页数:5 大小:286KB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

Ontology-based information extraction technology.doc

Ontology-basedinformationextractiontechnology.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

Ontology-basedinformationextractiontechnologyBasedonimprovedWordasp.netsimilaritycalculationmethodofthedomainontologyconstructionTieliSunSchoolofComputerScienceandInformationTechnologyNortheastNormalUniversityChangchunJilin,Chinasuntl@nenu.edu.cnLanlanWuSchoolofComputerScienceandInformationTechnologyNortheastNormalUniversityChangchunJilin,ChinaWull185@nenu.edu.cnAbstract—Willontologyisintroducedtoinformationextractionfield,canimprovetheperformanceofinformationextraction.Basedonthediscussionofconstructingontologytechnologyandstandardsrelatedto,onthebasisofthreelayersframeworktoconstructingontologytoresumeontology,universityteachersRacerreasoningmachinetoimplementconsistencyandaccuracytesting.BasedonthisimprovedtheWordasp.netsimilaritycalculation,throughtheuseofWord.netsemanticsimilaritycalculationandmanuallycollectingmethodofcombiningtheconceptofthisbody,obtainthespecificexamples,theresultprovesthattheresultcanbeextractedremarkablyenhanced.Keywords:Wordasp.net,similaritycalculation,ontologyconstruction基于本体的信息抽取技术研究基于改进WordNet相似度计算的领域本体构建方法研究孙铁利1,、吴兰兰21、东北师范大学,长春,中国、1300002、东北师范大学,长春,中国、1300001.suntl@nenu.edu.cn,2.wull185@nenu.edu.cn【摘要】:将本体引入到信息抽取领域,能有效提升信息抽取的性能。本文在探讨构建本体的相关技术和准则的基础上,以三层本体框架结构来构建高校教师简历本体,以Racer推理机实现一致性和正确性检测。在此基础上改进了WordNet相似度计算,通过使用WordNet的语义相似度计算和手工收集相结合的方法,获取了本体内概念的具体实例,结果证明,抽取结果精度得到了显著提升。关键词:WordNet,相似度计算,本体构建1引言利用信息抽取技术,能从大量的信息中有效的提取出感兴趣的内容,并以一定的格式进行存储,为重复利用信息提供了方便。在文本信息抽取方面,信息抽取的适应性问题是其主要的瓶颈问题。将本体引入到信息抽取领域,以本体对领域知识进行描述,能有效提升信息抽取的性能。本文采用基于WordNet的语义相似度算法来构建本体,并对本体相关概念的实例进行获取。在计算过程中进一步细化了词语计算相似度的方式,将其推广为针对同义词集合的相似度计算,在此基础上改进了WordNet相似度计算,实例证明,计算的准确性得到了显著提升。2本文的本体构建方法本文的目的是构建一个高校教师的简历本体,采用protégé作为本体构建工具,采用自顶向下(Top-Down)的开发方法,并在开发中注重本体概念的逐步细化。每位高校教师的简历信息均由多个事件信息组成,在每个事件中,又可以细分为一系列具体的实体信息。下图所示为本文结合领域的特性,构建的三层高校教师简历本体结构。图:的三层高校教师简历本体结构在上图中:Ontology的名称为Domain(领域),将所构建的高校教师简历本体,命名为PCV(Professor’sCV)。EventConcept为事件概念层:这个层次的领域内包含多个Event(事件),可以把每一个事件视作一个EventConcept(事件概念)。大学教授的简历中包含如“学习经历”、“工作经历”等很多的事件。ExtendedConcep