如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
8.6多维关联规则挖掘例如,事务DB如表8-3所示。要挖掘MD-模式时,可以使用最早由beyer和Ramakrishnan(它是个有效的“冰山立方体”,见下图)开发的改进BUC算法。BUC算法的基本步骤如下:首先,在第一维(A1)中按值的字母顺序将每个项进行排序。1.在该维中仅有的MD-模式为(a,*,*),因为只有a值的支持度大于2。其它维的值(*)在第一步不相关,可取任意值。在DB中选择那些具有MD-模式的项。即T01和T03事务。针对第二维(A2),值1和2,对简化的DB进行再一次排序。没有符合支持度的模式,所以不存在A1和A2值的MD-模式。因此可忽略A2。在分布式的信息环境中,文档或对象通常被链接在一起,从而可以起到互相访问的作用。找到MD-模式后,下一步对每个MD-模式在MD-投影中挖掘频繁项集。这种技术还处于萌芽阶段,但却在互联网应用中显示出了极光明的前景。如果一个节点中的网页能将客户成功在导航他所想要的信息或页面中,在同一节点的其他页面也可能获得成功。a=ATh=(ATA)a;h=Aa=(AAT)hHub页的一个显著特征就是:它们是某个焦点主题的权威页的有力提供者。与些同时,一个好的权威页,是被一些好的hub页所指向的。目标是构造出蕴含高相关性、权威性的网页的子图。没有符合支持度的模式,所以不存在A1和A2值的MD-模式。由于用户沿着信息路径在网上搜寻想要的信息,一些对象或文档只是因为它们的位置而被访问,而不是因为它们的内容。在下两小节中,介绍Web挖掘的3个主要技术。如果一个网页有一些好的hub页来指向,那么就增加它的权威页的权重,因此,将网页p的ap值设为所有指向p的网页q的hq值之和:本阶段使用了不同的综合目的机器学习、数据挖掘技术和指定的面向Web的方法。如果一个节点中的网页能将客户成功在导航他所想要的信息或页面中,在同一节点的其他页面也可能获得成功。多维事务数据库DB的结构为(ID,A1,A2,…,An,items),Ai是DB中的结构化属性(例如顾客的年龄,职业,收入等),而items是同事务连接的项的集合(例如购物篮中频繁项集)。多维事务数据库DB的结构为(ID,A1,A2,…,An,items),Ai是DB中的结构化属性(例如顾客的年龄,职业,收入等),而items是同事务连接的项的集合(例如购物篮中频繁项集)。因此Web挖掘中必须发掘出两种重要类型的网页:权威页(提供了指定主题的最佳信息来源)和Hub页(提供同权威页链接的集合)。对权威页和hub页的更新规则为:Web挖掘任务划分为4个子任务:没有符合支持度的模式,所以不存在A1和A2值的MD-模式。由于用户沿着信息路径在网上搜寻想要的信息,一些对象或文档只是因为它们的位置而被访问,而不是因为它们的内容。子集(a,*,m)出现两次,因此它是一个MD-模式。a={a1,a2,…,an}和h={h1,h2,…,hn}Web挖掘可以定义为使用数据库挖掘技术在Web文档和服务中自动在发掘并且提取信息。该表并不是表8-4和表8-5的处理结果,只是一个示例。例如,事务DB如表8-3所示。没有符合支持度的模式,所以不存在A1和A2值的MD-模式。在该维中仅有的MD-模式为(a,*,*),因为只有a值的支持度大于2。分析─在这一过程中,执行生效和/或解释已挖掘出模式。8.7WEB挖掘Web挖掘可以定义为使用数据库挖掘技术在Web文档和服务中自动在发掘并且提取信息。它涉及到整个挖掘的过程,而不仅仅是应用标准的数据挖掘工具。Web挖掘任务划分为4个子任务:1.寻找资源─这是一个从Web上的多媒体资源中在线或离线检索数据的过程。电子时事通信、电子新闻专线、新闻组以及通过删除HTML标记得到的HTML文档。2.信息选择和预处理─这是在上面的子任务中检索出的不同种类的原始数据的转换过程。转换过程既可以是一种预处理,比例删除停止字,障碍字等,或者旨在获得所需要的表示法,例如查找在训练主体中的习语,以第一顺序逻辑的形式表示文本等。3.总结─总结是一个在个别Web站点上自动地发掘出综合模式的过程。本阶段使用了不同的综合目的机器学习、数据挖掘技术和指定的面向Web的方法。4.分析─在这一过程中,执行生效和/或解释已挖掘出模式。Web挖掘可以基于所挖掘的部分进行分类,分为3类:内容挖掘─描述从Web文档发掘出有用的信息。内容包括:文本、图像、音频、视频、元数据以及超链接。结构挖掘─挖掘Web上的链接结构中的潜在模型。使用挖掘─挖掘在网上冲浪的过程或行为所产生的数据。当1类和2类利用Web上的真实或主要数据时,3类就会从用户在同Web进行交互时的行为入手,挖掘第二级数据。这些数据包括访问Web服务器日志