如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
网站资源抓取管理本功能只针对专业版用户开放。本功能可以方便的采集各种类型的网址资源和数据,便捷的导入到软件当中,因此用户可以自行更新数据库资源,不再需要依靠官方的数据更新了。对每种数据类型,软件都自带了默认的抓取规则,您可以使用默认规则抓取,也可以根据自己的需要修改默认规则,或者自由定制新的抓取规则。一、打开网站资源抓取规则管理窗口,可以看到,软件内置了40多个默认抓取规则。每个规则由名称,绑定验证程序类型,服务器类型,资源类型,搜索指令集合和关键词组成。绑定验证程序下拉框里包括了所有的程序类型,抓取完毕,验证入库的时候,网址就按照对应的类型来进行有效性检查,验证通过了就会加入到软件数据库中。搜索指令集合可以加入一个或者多个指令,每个指令就从GOOGLE里面圈出一批符合特征的网址,软件会自动细分搜索获取返回结果的(超过1000条的也支持进一步自动化细分抓取)。关于如何使用搜索指令方面的内容,您可以参考:http://www.google.com.hk/advanced_search?hl=zh-CN搜索关键词,这个建议留空白,可以获得所有的结果。如果加上自己的关键词例如“旅游”,也是可以的,返回的结果基本都是跟旅游有关的网址,但是结果会少很多。Google抓取的配置:支持三种模式,你可以优先使用本地IP,然后是代理,或者是ADSL自动拨号换IP。如果长时间都没有结果出来,可以选中弹出验证码选项,手工输入GOOGLE验证码,可以加快抓取速度。强烈建议您选择使用本地IP或者ADSL自动拨号模式并且打开验证码弹出选项,输入一次GOOGLE的验证码可以使用1-3分钟,我们官方更新网址数版权所有:www.ccseo.net据也是这样用的,并不使用代理因为代理容易失效并且更容易被封。左侧列表里面的抓取规则名称后面括号里显示的是已经抓取到的网址条数。抓取结束之后,软件会提示是否立即开始验证入库工作。版权所有:www.ccseo.net当然您也可以随时点击“验证入库”按钮开始导入工作,只要已经抓取到结果了。所有抓取到的结果都保存在“软件安装目录-》网址采集结果”目录里面。当第二次开始抓取同一规则的时候,文件内容被清空,从0重新开始计数。版权所有:www.ccseo.net在使用HTTP代理服务器模式下,如果IP被封没有可用的代理服务器资源了,软件会弹出提示,这时候可以人工进行ADSL拨号或者VPN拨号来进行更换IP工作。然后可以继续抓取工作。2、HTTP代理服务器管理本功能是管理和维护代理服务器列表,以供抓取网址资源的时候使用。未来也可能会支持使用这里的代理服务器来进行注册或发布工作。服务器列表会自动从服务器下载更新的。当然你如果自己有代理列表资源,也可以直接导入。导入的格式参考代理猎手软件输出的文件结果格式。界面上显示了代理总个数,有效的个数,被Google屏蔽的个数。如果有效代理个数为0了,说明没有可用代理了,那么您需要重新测试所有代理,或者导入新的代理列表。软件具有自动清理的功能,可以按照设定的失败次数,自动删除失效的代理。版权所有:www.ccseo.net本功能由于免费自由代理资源较少并且很容易失效和被封,不建议使用,但IP代理地址可以去IP代理服务商购买。3、ADSL自动拨号换IP设置本功能是便于在网址资源抓取过程中自动更换IP,绕过Google对连续查询的封锁。未来的版本中,可能会支持在发布和注册过程中自动换IP的功能。如果你使用的是ADSL网络,并且是直连ADSL猫(不是ADSL猫连路由器让路由器拨号的),就可以使用本功能。版权所有:www.ccseo.net版权所有:www.ccseo.net版权所有:www.ccseo.net