多媒体搜索引擎(1).doc
上传人:sy****28 上传时间:2024-09-14 格式:DOC 页数:3 大小:35KB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

多媒体搜索引擎(1).doc

多媒体搜索引擎(1).doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

查询结果处理多媒体搜索引擎2010年7月6日MultimediaSearchEngine2查询结果处理?查询的特征?短?英语:平均2.5词,803词?不精确?“华师大”?你想要什么??只使用简单语法?有几个用户懂布尔代数???大多数查询将返回大量的结果?“华师大”:174万2010年7月6日MultimediaSearchEngine3查询结果处理?查询的特征?缺乏耐心?85的用户只看第一页结果?78的查询不会被用户改进??要把用户需要的结果放在第一页??结果排序2010年7月6日MultimediaSearchEngine4查询结果处理?结果排序?理想情况:把结果按与用户的需求相关的程度排序?用户需要什么???把结果按与查询相关的程度排序?如何度量文档和查询的相关度?“2010年7月6日MultimediaSearchEngine5查询结果处理?结果排序?1.按词频?查询关键字在文档中出现的次数越多则越相关?查询关键字有多个??相应词频相加?????qtdttfdqstf:termfrequency2010年7月6日MultimediaSearchEngine6查询结果处理?结果排序?1.按词频?非线性词频?对数词频?归一化词频???????000log1dtdtdtdttftftfwf????dtdtdtdttftfntf????max1??2010年7月6日MultimediaSearchEngine7查询结果处理?结果排序?1.按词频?非线性词频?布尔词频?对数平均词频??????0001dtdtdttftfbf????????????dtdtdtdttfavgtfLflog1log12010年7月6日MultimediaSearchEngine8查询结果处理?结果排序?1.按词频?每个词重要性一样??“北朝鲜的核试验”?北朝鲜/的/核试验689万网页125万网页2010年7月6日MultimediaSearchEngine9查询结果处理?结果排序?2.tf-idf?idf:inversedocumentfrequency?逆文档频率?ttDDidflog?t所有文档都出现的词如“的”:DDt?idftlog10在1文档中出现的词:D/Dt100?idftlog10002010年7月6日MultimediaSearchEngine10查询结果处理?结果排序?2.tf-idf?用idf为权重的加权词频和??????qttdtidftfdqs文档中一个词的重要性??nnttttttidftfidftfidftf???...22112010年7月6日MultimediaSearchEngine11查询结果处理?结果排序?2.tf-idfwww.sei.ecnu.edu.cnwww.ecnu.edu.cnwww.sjtu.edu.cnvectorspacemodel2010年7月6日MultimediaSearchEngine12查询结果处理?结果排序?2.tf-idf?文档矢量不一定是归一化的docdocX2docX3??dqdqdqVVVVdqsimcos?????2010年7月6日MultimediaSearchEngine13查询结果处理?结果排序?2.tf-idf?长文档的问题:如果把文档切割成几部分?单一主题?词频比例相对固定?词条相对固定?多主题?词频比例变化较大?词条变化大2010年7月6日MultimediaSearchEngine14查询结果处理?结果排序?2.tf-idf?长文档的问题d1d2d1d2文档集与集中单个文档的相似度如何衡量?FAQ文档及其查询2010年7月6日MultimediaSearchEngine15查询结果处理?结果排序?2.tf-idf?SEOSPAMSearchEngineOptimizationSPAM?出现在搜索引擎上对网站的访问量影响巨大??希望自己的网站总是出现在搜索结果的最前面??SEO:SearchEngineOptimization?根据索引算法优化页面设计tf-idf相关性计算准则下如何优化?华师大华师大华师大华师大华师大华师大华师大华师大华师大华师大华师大华师大这个页面没人看?2010年7月6日MultimediaSearchEngine16查询结果处理?结果排序?2.tf-idf?SEOSPAM?隐藏文字?MetaTag:?ImageTag:?HTML注释?超长标题?同色文字:文字与背景色相同?自动跳转页?包含大量关键字的页面自动跳转到真实页面2010年7月6日MultimediaSearchEngine17查询结果处理?结果排序?2.tf-idf?“王婆卖瓜自卖自夸”?文档的优劣程度不可能通过文档本身来评价??通过文档本身的内容对文档排序的方法不可靠??谁可