Web数据挖掘初探.doc
上传人:sy****28 上传时间:2024-09-13 格式:DOC 页数:14 大小:40KB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

Web数据挖掘初探.doc

Web数据挖掘初探.doc

预览

免费试读已结束,剩余 4 页请下载文档后查看

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

20082中国集体经济图1Web数据挖掘分类摘要:Web数据挖掘是数据挖掘领域中一个新兴方向。文章介绍了Web数据挖掘的概念、流程,融合前人的众多研究,重点分析了Web数据挖掘的分类及其功能,并对其未来的发展提出了自己的看法。关键词:Web;数据挖掘;内容挖掘;结构挖掘;使用挖掘;应用一、引言相对于传统数据挖掘中结构化的数据,Web上的数据是半结构化或非结构化的。由于半结构化和非结构化的信息用数据模型不能清楚地表示,Web的用户群也表现出多样性的特点,因此,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。同时,基于Internet的服务也如雨后春笋般产生并发展起来。如网上银行、搜索引擎等。企业急需由Internet这个巨大的信息源中分析客户行为,寻找商机。在上面两个需求的推动下,产生了一个新的研究领域———Web数据挖掘。Web数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web中的应用。二、Web数据挖掘概述(一)Web数据挖掘的概念Web数据挖掘就是利用数据挖掘技术从Web文档和服务中自动发现和抽取信息(Webminingistheuseofdataminingtechniquestoautomaticallydiscoverandex-tractinformationfromWebdocumentsandservices)。Web数据挖掘是在分析大量数据的基础上,做出归纳性的推理,预测客户行为,帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。研究覆盖了多个领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。(二)Web数据的特点1、数据量大。Internet将分布于世界各地的数量巨大的电脑连接起来,每个电脑上都存有丰富的数据,这些数据涉及不同的行业和领域,这其中还有很多的用户行为数据,所以Web数据量非常巨大。2、半结构化数据结构。半结构化是Web上数据的最大特点。传统数据库都有一定的数据模型,可以根据该模型具体描述特定的数据,比如关系型的数据库,有统一的格式:按一定序列编排的二维表格结构,其中存储的数据是完全结构化的数据。而Web上的数据非常复杂,没有特定的模型描述。每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性,但因自述层次的存在,从而是一种非完全结构化的数据,即半结构化数据。3、异构数据库环境。从数据库研究的角度来看,Web网站上的所有信息也可以看作是一个比普通数据库更大、更复杂的数据库。每一个Web站点都可以看作是一个数据源,由于各站点是相互独立的,之间除了可以互相访问之外并没有任何关系,所以每个站点之间的信息及信息组织方式都是不相同的,这就构成了一个巨大的异构数据库环境。要对这些数据进行分析,必须要解决各站点之间异构数据的集成问题,提供给用户一个统一的视图,才可能从巨大的数据资源中获取有用的信息。4、动态性极强。相对于数据仓库的数据而言,Web的数据量似乎过于庞大,而且其中的信息还在不断的更新。这几乎不可能去构造一个数据仓库来复制、存储和集成Web上的所有数据。三、Web数据挖掘的分类Web包括三种类型的数据:Web页面数据、Web结构数据、Web日志文件。根据数据挖掘对象的不同可以将Web数据挖掘分为内容挖掘、结构挖掘和使用挖掘三类,其具体分类见图1。(一)Web内容挖掘1、文本挖掘。对非结构户文本进行的Web挖掘,称为文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域。对文本数据进行挖掘的文档分类和模型质量评价方法与传统的数据挖掘方法相类似,分类算法主要应用朴素贝叶斯。对模型的质量评价主要有分类的正确率、准确率和信息估值。2、多媒体挖掘。多媒体数据挖掘是数据挖掘的一个重要领域,是从多媒体数据库中提取隐藏的知识、多媒体数据关联、或者是其他没有直接储存在多媒体数据库中的模式。多媒体挖掘首先进行特征提取,然后再应用传统的数据挖掘方法进行进一步的信息挖掘。广义的多媒体数据挖掘既包括对图像、视频和声音的挖掘,也包括对文本数据的挖掘。(二)Web结构挖掘整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在Web页面的结构之中。Web结构挖掘是指挖掘Web潜在链接结构模式,即■梅薇We