BBS论文BBS热点话题发现与监控系统.doc
上传人:qw****27 上传时间:2024-09-12 格式:DOC 页数:4 大小:25KB 金币:15 举报 版权申诉
预览加载中,请您耐心等待几秒...

BBS论文BBS热点话题发现与监控系统.doc

BBS论文BBS热点话题发现与监控系统.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

15 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

BBS论文:BBS热点话题发现与监控系统【中文摘要】互联网的飞速发展为BBS的普及提供了条件,目前BBS己经成为一种常用的交流工具,网民可通过BBS发起新话题或回复现有的话题来表达对某个事件的看法。从一定角度来看,BBS是现实社会的镜像,因而可以采集BBS中的数据,为BBS舆情分析提供数据基础。本文实现的热点话题发现、话题监控功能都是以BBS实时数据为基础的。本文在分析国内外BBS热点话题发现与监控现状和发展的基础上,从系统的整体设计和实现过程入手,深入分析系统结构设计和系统处理流程等方面的问题。本文的主要研究内容如下:(1)BBS数据采集:数据采集是整个热点话题发现与监控系统的基础,本文利用传统网络爬虫的运行原理,并结合论坛的特征,提出基于论坛版块扩展的BBS数据采集策略,实现对BBS论坛的高效采集。(2)BBS数据预处理:采集所得的数据为非结构化数据,系统需要对其处理,使之转化为结构化数据。预处理部分主要包括页面信息抽取和文本向量表示两个主要步骤。(3)BBS热点话题发现:话题识别是热点话题发现的关键步骤,本文采用Single-Pass聚类算法进行话题识别,在实际应用时针对原算法存在的缺陷做了相应改进,并给出实验结果...【英文摘要】TherapiddevelopmentofInternetisahelpfultoolforpopularizingBBS.Atpresent,BBShasbecomeapopularcommunicationtool.ThroughtheBBS,usercouldlanchanewtopicorreplytoexistingtopicstoexpressideasoftopics.Tosomeextent,BBSisamirrorofrealsociety.Thereal-timedataonBBScanbecollectedwhichprovidescertaindatabasefortheresearchoftheBBShottopicdetection.Inthispaper,hottopicdetectionandmonitoringfunctionarebasedonreal-timedataofBBS.Basedo...【关键词】BBSWeb文本挖掘爬虫聚类热点话题发现话题监控【英文关键词】WebrawlerBBSWebtextminingclusteringalgorithmshottopicdetectionhottopicmonitoring【目录】BBS热点话题发现与监控系统致谢5-6中文摘要6-7ABSTRACT71绪论11-161.1研究背景和意义11-121.1.1课题研究的背景11-121.1.2课题研究的意义121.2国内外研究现状12-131.3论文的主要工作及组织结构13-162相关技术介绍16-332.1Web文本挖掘技术16-212.1.1Web文本挖掘过程16-172.1.2文本挖掘关键技术17-212.2网络数据采集技术介绍21-282.2.1网络爬虫技术21-252.2.2页面信息抽取技术25-262.2.3URL语法解析及分类算法26-282.3热点话题发现技术28-312.3.1话题检测与跟踪相关概念28-292.3.2热点话题发现相关算法29-312.4系统开发工具介绍31-322.4.1HtmlParse介绍312.4.2正则表达式31-322.4.3ICTCLAS汉语分词系统322.5本章小结32-333BBS热点话题发现与监控系统设计33-383.1系统总体设计33-343.1.1系统功能介绍333.1.2系统总体设计33-343.2系统模块划分34-373.2.1信息采集模块34-353.2.2数据预处理模块35-363.2.3热点话题发现模块363.2.4热点话题监控模块36-373.3本章小结37-384BBS数据采集及预处理的实现38-554.1BBS数据爬取38-414.1.1BBS逻辑结构分析38-394.1.2BBS信息采集策略39-404.1.3版面链接URL的识别