Web新闻自动采集发布系统的设计与实现-第一文库 | 海量文档资源下载与分享平台

在线预览结束，喜欢就下载吧，查找使用更方便

15 金币

下载此文档

/ 4

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

第19卷第9期计算机技术与发展Vo1．19No．92009年9月COMPUTERTECHNOLOGYANDDEVELOPMENTSep．2009Web新闻自动采集发布系统的设计与实现张春元，康耀红，伍小芹(海南大学信息科学技术学院，海南海口570228)摘要：针对新闻网站通过人工方式采集发布来自其它网站的web新闻费时费力、易重采与漏采这一问题，综合运用Web信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫的Web新闻自动采集发布系统。在给出系统总体结构的基础上，对其各个模块的功能、设计与实现方法进行了详细介绍。实验表明，该系统设计合理，具有采集效率高、消重准确、集成方便、运行费用低等优点，可作为新闻网站的采编工具加以推广使用。关键词：网络爬虫；网页去噪；文档消重；Web新闻发布中图分类号：TP391．3文献标识码：A文章编号：1673—629X(2009)09—0250—04DesignandImplementationofWebNewsAutomaticallyGatheringandPublishingSystemZHANGChun—yuan，KANGYao-hong，WUXiao-qin(InstituteofInformationScienceandTechnology，HainanUniversity，Haikou570228，China)Abstract：Newssitesmanuallygatherandpublish，ebnewsfromothersites，whichisinefficientandeasytorepeatedly~lectornfisssomenews．Tosolvethisproblem．usingWebinformationfetchingtechnology．Webpagesnoiseselimimtingtechnology，replicatedtextdocumentseliminatingtechnologyandautomatictextclassificationtechnokgy．aⅥrebnewsautomaticallygatheringandpublishingsystemisdesignedandimplemented．Thewholestructureofthesystemispresented，andthenthewminfunctionanddesignmethodofitseachmoduleareintroduced．Theexperimentshowsitsdesignisreasonable，andcrawlingefficiencyishigh，andeliminatingreplicateddocu—mentsisaccurate，andintegratingintoanewsiteiseasy，andoperationcostislow，anditcanbeusedasthegathe~。ingandeditingtoolofnewssiteswidely．Keywords：Webcrawler；Webpagesnoiseselimination；replicateddocumentselimination；Webviewspublishing0引言常采编工作平台。目前，不少新闻网站仍然依靠网络编辑从其它网站手工采集各种新闻信息来丰富自己的内容，这种方1系统设计式发布的web新闻虽然具有较高的质量，但是费时费1．1系统结构力。为了即时转发有价值的新闻，网络编辑们需要花图l为Web新闻自动采集发布系统结构图，整个费大量时间频繁浏览各大新闻网站；多名编辑一同采系统由虚线框内各模块组成。也可将系统处理后的新编时，由于缺乏统一的协作平台，还比较容易出现新闻闻文档保存到系统外部待集成新闻网站的数据库中，信息的重复采集或者漏采。针对这一问题，笔者参与完成web新闻的自动发布。下面将逐一介绍系统各设计并实现了一种基于Crawler的Web新闻自动采集模块的功能和设计思想。发布系统。该系统通过网络爬虫对用户指定网站区域1．2增量式Crawler下的Web新闻网页增量采集，经解析、消重、分类处理Crawler即网络爬虫，又称网络蜘蛛(Spider)、网后保存至新闻网站的数据库中，可以7×24小时自动络机器人(Robot)等，主要用来采集各种Web信息资采集发布Web新闻，也可作为新闻网站编辑人员的日源，本系统所采用的增量式Crawler是一种介于主题网络爬虫和个性化网络爬虫·]之间的轻量级采集系收稿日期：2008