信息检索基础理论.ppt
上传人:yy****24 上传时间:2024-09-10 格式:PPT 页数:110 大小:3.5MB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

信息检索基础理论.ppt

信息检索基础理论.ppt

预览

免费试读已结束,剩余 100 页请下载文档后查看

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

2信息检索基础理论本章要点2.1信息检索的基本原理信息存储与检索手工检索与计算机化检索的对比信息检索的基本原理1、需求集合用户的信息需求是发展变化的,并且受着时、空的限制。这说明,用户信息需求的状态是一种“运动状态”,科亨(Kochen)曾经将用户的信息需求状态划分为如下图所示的三个层次。人类的社会信息(情报)需求2.职业工作中的需求表现3.社会化中的需求表现2、信息集合3、匹配与选择信息检索的本质计算机信息检索原理示意图信息检索系统的体系结构2.2信息检索的相关性问题手检相关性机检相关性(1)基于词频统计的相关性(2)位置方法(3)引用率方法(4)点击率方法(5)分类和聚类相关性判断方法的缺点分析相关性研究的热点2.3信息检索的效果评价评价指标体系评价指标体系影响检索效果的主要因素提高检索效果的措施网络信息资源检索效果评价2.4信息检索系统和工具印刷型检索工具的类型和结构信息检索工具/系统的基本结构2.4计算机检索系统的结构及工作原理(1)信息选择与采集子系统(2)标引处理子系统(3)建库子系统(4)词表管理子系统(5)用户接口子系统(6)提问处理/检索匹配子系统(技术核心)联机检索系统的工作原理光盘检索系统的结构及工作原理网络检索系统的结构及工作原理2.5信息检索模型信息检索的基本原理什么是模型?信息检索的数学模型:运用数学的语言和工具,对IR中的信息及其处理过程加以翻译和抽象,表达为某种数学公式。信息检索模型决定于:从什么样的视角去看待查询式和文档基于什么样的理论去看待查询式和文档的关系如何计算查询式和文档之间的相似度信息检索系统的形式化表示信息检索经典模型1布尔模型布尔模型布尔模型的特点ClassicalBoolean的最大缺点:只有0和1,没有ranking。要么返回大量结果,要么没有结果。布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回ClassicalBoolean另一缺点:太僵化,在OR方式中,包含很多查询词的文档和包含少数词的文档是等同的;在AND方式中,即使缺少一个词,结果也是FALSE,等于一个词也没有非常刚性:“与”意味着全部;“或”意味着任何一个如果“我想要n个词中m个词同时出现的文档”,怎么表示?不可能企望用户自己规定m值系统可以从m=n开始,然后逐渐减少m,但很麻烦很难表示用户复杂的需求很难控制被检索的文档数量原则上讲,所有被匹配的文档都将被返回很难对输出进行排序不考虑索引词的权重,所有文档都以相同的方式和查询相匹配很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?扩展布尔模型extendedbooleanP-norm模型P-norm模型:参数讨论扩展布尔模型的应用情况2向量空间模型(VSM)相似度计算向量空间模型及其基本原理◆优越性(相对于布尔模型)——VSM只是提供了一个理论框架,具有广泛的适应性;——采用部分匹配策略;——检索不是以倒排档技术为基础,而是基于聚类文档;——检索结果可以采用排序输出方式。将文本和查询简化为特征项及权值集合的向量表示,从而把检索操作变成向量空间上的向量运算。向量的权重可以通过简单的统计来完成,即通过定量的分析对查询和文本进行匹配。对向量空间模型的评价与分析(续)例如,计算机科学文档集向量空间模型的发展:LatentSemanticIndexing(LSI)------概率模型概率模型贝叶斯定理如果一枚硬币被连续抛100次,每次都是正面朝上,那么,抛第101次时,正面朝上的概率是多少?贝叶斯定理的公式表述:这个原理的大致意思:某件事情发生的概率大致可以由它过去发生的频率近似地估计出来。基因研究、过滤电子邮件…《TheProbabilityofGod,2003》近几年中,在这三种基本模型的基础上还发展出了许多新的模型方法,主要可分为以下三类:基于集合理论(settheoretic)的检索模型,如模糊(fuzzy)集合方法和扩展布尔(extendedboolean)模型;基于代数学理论(algebraic)的模型,如生成向量(generalizedvector)模型、隐含语义索引(latentsemanticindex)和神经网络(neuralnetworks)模型;基于概率论的检索模型,如推理网络(inferencenetwork)和信任网络(beliefnetwork)模型。IR模型的分类体系结构图提高系统相关性的技术相关性研究的热点——系统相关性用户相关性IIR的研究难点◆文本分类的基本处理流程◆文本挖掘与文本检索的区别2.5.2结构化文本检索模型2.5.3浏览模型