一个借助查询历史改善结果排序的文件检索系统的设计与实现--硕士本科论文.doc
上传人:论文****酱吖 上传时间:2024-09-11 格式:DOC 页数:60 大小:1.3MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

一个借助查询历史改善结果排序的文件检索系统的设计与实现--硕士本科论文.doc

一个借助查询历史改善结果排序的文件检索系统的设计与实现--硕士本科论文.doc

预览

免费试读已结束,剩余 50 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

北京大学硕士研究生学位论文题目:一个借助查询历史改善结果排序的文件检索系统的设计与实现姓名:学号:院系:信息科学技术学院专业:计算机系统结构研究方向:计算机网络与分布式系统导师:版权声明任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。摘要随着网络的发展,网络上提供文件共享服务的服务器越来越多,共享的文件数量也随之增加。如何更好的检索、利用这些共享文件成为一个重要的问题。针对用户对文件检索的需求,本文在文件检索技术领域有如下贡献。1.本文首先提出了一个文件检索的模型,明确了在文件检索模型中检索对象、查询串、查询与检索对象的匹配方式三部分的含义。检索对象,即文件条目表示为六元组[name,ext,size,date,site,path]的形式,查询串表示为以空格分隔的字符串的集合,查询与检索对象的匹配则表示为查询串与文件条目的匹配串之间的匹配。2.提出了对文件检索系统进行评测的指标。将查询结果视作集合时以查全率、查准率为评测指标。将查询结果视作有序序列时,分析了查询结果的相关性、连接下载速度以及结果的可用性等因素对排序的影响,并提出了对排序进行评测的指标——排序指数。作者还提出对于两个排序策略进行比较时,应当在结果的每个页面内部应用排序策略,而不是在全体结果集合上应用排序策略,并比较平均用户选取条目的页内排名。3.通过统计、分析用户对文件搜索引擎的检索和对检索结果中下载地址条目的选取,作者发现了用户行为习惯中的两个重要规律:一、少数查询串占据了全部查询请求的大多数,具体而言,前20%的热门查询串占据了全部查询请求的80%;二、对全体用户而言,假设有n次不同的查询请求使用了同一个查询串,并且它们代表k类不同的查询意图。那么通常k≤3,因而在n较大的情况下,则n/k的值较大,即大量的来自不同用户的请求代表了相同的查询意图。4.基于上文所述,作者设计并实现了一个真实的系统。该系统借助查询历史改善结果的排序。与一般基于用户历史信息的检索系统不同的是,本系统借助的历史信息不局限于当前用户的历史信息,还包含提交了相同查询串的其他用户的查询信息。或者说,即使当前用户是第一次使用本系统,本系统也能利用其他用户的历史记录来改进结果的排序和筛选。作者最后还验证了其实际的效果。应用本方法后,平均用户选取条目的页内排名从原来的13.70名前进到了8.93名。试验结果表明文中所做的分析是正确的。关键词:文件检索系统,查询历史,检索模型TheDesignandImplementationofaFileIndexSystemwhichImprovetheOrderbyQueryHistoryAbstractWiththerapidexpansionoftheInternet,therearemoresharingfileservers.Andthenumberofsharingfilesisincreasingrapidlytoo.Soit’smoreimportanttoretrievethesefileseasily.Fortherequirementoffileretrievingoftheusers,wedidthefollowingjobs:1.Weproposedafileindexmodel.Themodeliscomposedoftheexpressionofanindexobject,theexpressionofaquery,andhowthequerywordmatchestheindexobject.Theindexobjectcanbeexpressedas[name,ext,size,date,site,path],thequerystringisexpressedasstringsseparatedbyspace,andthematchingbetweenqueryandindexobjectisrealizedbymatchingthequerystringandthematchingstringsofthefileitem.2.Wealsoproposedtheevaluationindicatorforthefileindexevaluation.Theprecisionandrecallareusefulwhenweevaluatethequeryresult.Buttheresultisnotaset,butanorderedlist.Soweindicatedthefactorsinorder:
立即下载