中文局域网搜索引擎设计与实现论文.pdf
上传人:康平****ng 上传时间:2024-09-12 格式:PDF 页数:141 大小:2.6MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

中文局域网搜索引擎设计与实现论文.pdf

中文局域网搜索引擎设计与实现论文.pdf

预览

免费试读已结束,剩余 131 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

分类号密级UDC学位论文中文局域网搜索引擎设计与实现王颖指导教师姓名鲁珂副教授电子科大成都孙纪方高工乐山巨人监理有限公司乐山申请学位级别硕士研究生专业名称软件工程论文提交日期2009.5论文答辩日期2009.6学位授予单位和日期电子科技大学答辩委员会主席评阅人2009年6月2日注1注明《国际十进分类法UDC》的类号独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:王颖日期:2009年6月5日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:王颖导师签名:鲁珂日期:2009年6月5日摘要摘要随着互联网的不断发展和日益普及,网上的信息量在爆炸性增长,要在巨大数量的网上信息中找到自己所需要的信息非常困难,而搜索引擎的出现极大方便了人们在网上获取信息。但是现在的大型通用搜索引擎有它的局限性,现在人们对信息的精细化、专业化、非商业性的强烈需求,迫使大量专业领域的垂直搜索引擎的出现。而另外一方面在一些通用搜索引擎无法覆盖的区域,比如某某企业的内部网络,内部校园网络等也迫切需要一个能在自身网络内部运行的封闭性的便于部署的中轻量级的搜索引擎,即局域网搜索引擎。本文完整的说明了一个中轻量级的中文搜索引擎的设计与开发过程,实现了对网络信息的全文索引/检索。本文从需求分析入手,通过对需求的分析与描述概括出整个系统的大致轮廓,然后展开整个系统的设计,定义了数据采集子系统(通过对网络中存储的各种文件数据的下载,将所有的数据文件信息存储到本地磁盘)、预处理子系统(在后台对其进行信息净化抽取,建立相应的倒排索引)、中文分词子系统(对中文数据进行中文分词),查询子系统(建立查询代理为前台提供服务,接收前台查询短语)五大模块,勾画出整个系统的框架。通过对五大模块进行详细的设计,详细设计出每个类和函数成员。最后写出五大模块中的重要函数的代码实现,完整地描述了整个系统的全部设计与开发过程。关键词:搜索引擎,中文分词,倒排索引-I-ABSTRACTABSTRACTWiththecontinuousdevelopmentandtheincreasingpopularityoftheInternet,Theamountoftheinformationonlineisintheexplosivegrowth,It'stoodifficulttofindtheinformationsyouneedintheenormousinformationonline,sotheemergenceoftheSearchenginemakepeopleaccesstoinformationmoreconvenient.Butthegeneralsearchengineshavelimitations,nowadaysthestrongdemandofpeopleforinformationisspecialization,Refinement,non-commercial,thestrongdemandmakestheemergenceofverticalsearchenginesinProfessionalfields.Ontheotherhand,theregionswherethegeneralsearchenginescannotbecovered,suchas:certainenterprise'sinternalnetwork,Internalcampusnetworkandsoon,arealsoinanurgentneedofalightweightclosedsearchenginewhichcanruninitsowninternalnetworkandeasytodeploy.Thatis,Intranetsearchengine.Inthisp