网络营销搜索引擎蜘蛛分析.doc
上传人:yy****24 上传时间:2024-09-10 格式:DOC 页数:4 大小:15KB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

网络营销搜索引擎蜘蛛分析.doc

网络营销搜索引擎蜘蛛分析.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

网络营销搜索引擎蜘蛛分析来源:HYPERLINK"http://www.adwordsing.com"广告圈http://www.adwordsing.com在网络营销中,搜索引擎算法是一个很复杂的过程,主要分为三个步骤,一是蜘蛛爬行和抓取,二是索引,三是排名运算,现在网站推广编辑和大家分享第一个步骤的相关信息,也就是蜘蛛的爬行和抓取。爬行和抓取是搜索引擎工作的第一步,完成数据收集任务。一、蜘蛛搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机器人(bot)。搜索引擎蜘蛛访问网站推广页面时类似于普通用户使用浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。网络营销搜索引擎为了提高爬行和抓取的速度,都使用多个蜘蛛分布爬行。蜘蛛访问网站时,首先会访问网站推广根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些网页或者内容,再或者网站,蜘蛛将遵循协议,不对其进行抓取。蜘蛛也是有自己的代理名称的,在站长日志中可以看出蜘蛛爬行的痕迹,所以为什么这么多站长解答问题的时候会说先查看网站日志(作为一个出色的网络营销SEO你必须具备不借助任何软件查看网站日志的能力,并且要非常熟悉其代码的意思)。二、追踪链接由于网络营销搜索引擎蜘蛛为了能够抓取网上尽量多的页面,它会追踪网页上的链接,从一个页面爬到下一个页面,就好像是蜘蛛在蜘蛛网上爬行那样,这就是搜索引擎蜘蛛这个名称的来因。整个互联网网站推广都是相互链接组成的,也就是说,之处从任何一个页面出发最终会爬完所有页面。当然网站和页面链接结构太过于复杂,所以蜘蛛只有采用一定的方法才能够爬完所有页面。最简单的爬行策略有两种,一种是深度网络营销优先,另一种是广度优先。深度优先是指蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个网站推广链接再一直往前爬行。广度优先是指蜘蛛在一个页面发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有链接都爬一遍,然后再进入第二层页面沿着第二层上发现的链接爬向第三层页面。从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,蜘蛛的带宽资源、时间都不是无限的。也不能爬完所有页面。实际上最大的网络营销搜索引擎也只是爬行和收录了互联网的一小部分。三、吸引蜘蛛由此可见,虽然理论上说蜘蛛可以爬行和抓取所有页面,但实际不行。那么SEO人员想要收录更多的网络营销页面就只有想办法引诱蜘蛛抓取。既然抓不了所有页面,那么我们就要让它抓取重要页面。因为重要页面在索引中起到重要决定,直接影响网站推广排名的因素。这会在接下来的博文中讲述。哪么那些页面算是比较重要的呢?重要页面有这么几个特点。1.网站和页面权重质量高、年龄老的网站推广被给予很高的权重,这种网站上的页面蜘蛛爬行的深度比较高,所以会有更多的内页被收录。2.页面更新度蜘蛛每次爬行都会把页面数据储存起来。如果第二次爬行时发现此页面与第一次收录的内容完全一样,说明网络营销页面没有更新,蜘蛛也没必要经常再来爬行和抓取。如果页面内容经常更新,蜘蛛就会频繁的爬行和抓取。那么页面上的新链接自然的会被蜘蛛更快的追踪和抓取。这也就是为什么需要每天更新文章。3.导入链接无论是网站推广外部链接还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本不知道页面的存在。此时的URL链接起着非常重要的作用,内链的重要性发挥出来了。另外,高质量的导入链接也经常使页面上的导出链接被爬行的深度增加。所以说为什么都要高质量网络营销友情链接,因为蜘蛛从对方网站爬行到你网站之次数多,深度也高。4.与首页点击距离。一般来说网站推广首页权重最高,大部分外部链接都指向首页,蜘蛛访问最频繁的也是首页。离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会也就越大。这也就是为什么要要求点击三次就能查看完整个网络营销网站的意思。四、爬行时的复制内容检测一般都知道在网络营销搜索引擎索引环节中中会进行去重处理,其实在蜘蛛爬行的时候已经在进行检测,当蜘蛛爬行和抓取文件时会进行一定程度的复制内容检测,遇到权重低的网站推广上大量转载或抄袭内容时,很可能不再继续爬行。所以对于网络营销新站来说切莫采集和抄袭。这也就是为什么很多站长查看日志的时候发现了蜘蛛,但是页面从来没有被抓取的原因。因为爬行发现是重复内容那么它讲放弃抓取也就只停留在爬行过的阶段。五、数据库为了避免重复爬行和抓取网址,网络营销搜索引擎会建立一个数据库,记录已被发现还没有抓取的页面和已经被抓取的页面。那么数据库中的URL怎么来的呢?1.人工录入种子网站。2.站长提交网站。一般来说,提交网站只是把网站推广存入待访问数据库,如