从网络搜索引擎机器人的工作原理谈网页制作的技巧.pdf
上传人:qw****27 上传时间:2024-09-12 格式:PDF 页数:4 大小:209KB 金币:15 举报 版权申诉
预览加载中,请您耐心等待几秒...

从网络搜索引擎机器人的工作原理谈网页制作的技巧.pdf

从网络搜索引擎机器人的工作原理谈网页制作的技巧.pdf

预览

在线预览结束,喜欢就下载吧,查找使用更方便

15 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

2001年第1期图书情报知识2001年3月从网络搜索引擎机器人的工作原理谈网页制作的技巧雷燕(中山大学图书馆,广州,510275)[摘要]从网络搜索引擎机器人自动采集标引WWW网站网页的工作原理出发,讨论了网页设计者在设计网页时如何应用这些原理,使设计的网页既美观实用,又能提高网页的可索引性及索引的质量。[关键词]网页制作搜索引擎机器人[中图分类号]G354[文献标识码]C[文章编号]100322797(2001)0120050203研究搜索引擎数据采集标引的原理,在相关页面的方式有两种,即横向优先访问设计网页时遵循一定的规则,能使设计的网(BREADTH2FIRSTCRAWLING)和纵向页更容易被搜索引擎机器人采集和标引,提优先访问(DEPTH2FIRSTCRAWLING)。高网页的被索引几率,达到更好的宣传效果。在横向优先访问中,ROBOTS首先访问起始对一些局域网上需要保密的信息,也可在网页的所有链接,然后再向下一层访问,依次类页制作时加入一些指令,以限制搜索引擎机推,其优点是能分散服务器的负荷。在纵向优器人的进入,避免搜索引擎机器人调用未经先访问中,ROBOTS从起始的一个链接不断授权的信息和服务器资源。向下一层链接访问,直到结束再回到起始页1提高网页可索引性和标引质量的方法跟踪另一个链接,其优点是容易形成页面记搜索引擎机器人(ROBOTS,又称自动录。当ROBOTS完成对一个站点的页面访标引器)是一个计算机程序。该程序不仅可在问时,也就将所有的页面信息调用到搜索引网络上检索文件,而且可自动跟踪文件的超擎的服务器上,标引工作就在这些搜集到的文本链接,利用标准协议依次访问相关的页信息的基础上进行。不同的搜索引擎对所索面,并遵循一定的规则对页面进行标引,形成引站点的标引深度不同,有的只标引首页下可检索的数据库。了解ROBOTS访问站点二三层的页面,有的采取无限制采集标引的的方法和自动标引的规则,就可在设计网页方法,有的采用取样采集标引的方法等。一般时做到有的放矢。一般而言,提高网页的可索搜索引擎的采样标引深度是首页下四五层页引性和标引质量的方法主要有:将重要的需面,所以设计网页时应尽可能将重要的信息要标引的内容置于接近首页的页面上;选择置于接近首页的层面上。可准确表达页面主题的标题及有关文字;利有些网络站点设计了站点地图(site用HTML语言的metaökeywords和metaömaps),这时搜索引擎机器人的访问从站点description标签,直接输入反映页面主题内地图开始,而不是从首页开始。当网站相对比容的关键词和叙词供机器人直接采用等。较简单时,这是一个较好的方法。如果网站上1.1将重要的内容置于靠近网页的页面上的网页很多,维持一个时时自动更新的网站ROBOTS从一个站点的首页开始访问地图变得相当复杂,此法就不太实用。501.2正确选用页面的标题及有关文字border=10name=″right″〉ROBOTS对页面的自动标引方式有关〈framesrc=″bottom.html″scrolling=″no″键词标引和全文标引两种。例如,border=0marginwidth=0marginheight=0ALTAVISTA采取全文标引的方法,对页面name=″bottom″〉的每个实词都进行标引。在关键词标引中,〈öframeset〉ROBOTS自动抽取关键词的字段有:页面标〈noframes〉题(TITLE)、段落标签里的内容(HI标签里〈body〉〈h1〉WelcometoourSite!〈öh1〉的内容可能是最重要的)、注释内容〈h2〉〈ahref=″http:ööwww.domain.comö(COMMENT)及替换内容(ALTTEXT),main.html″〉MainPage〈öa〉〈öh2〉所以要正确选用这些标签里的字词。〈h2〉OtherPage〈söh2〉1.3正确使用两个标签〈ul〉在HTML语言中,有两个专为〈li〉〈ahref=″trees.html″〉Tree〈söa〉ROBOTS搜寻标引词而设计的标签,它们是〈öli〉METAöKEYWORDS和METAö〈li〉〈ahref=″flowers.html″〉FlowersDESCRIPTION。网页设计者可在标签内直〈öli〉接输入反映页面主题内容的关键词和叙词供〈li〉〈ahref=″mammals.html″〉ROBOTS直接采用,以提高页面标引的质Mammal〈söli〉量。〈li〉〈ahref=″insects.html″〉Insects1.4正确使用框架技术和JAVASCRIPT〈öli〉技术〈li〉〈a