使用Weka进行数据挖掘的的基本方法手册与心得.docx
上传人:王子****青蛙 上传时间:2024-09-13 格式:DOCX 页数:14 大小:1.4MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

使用Weka进行数据挖掘的的基本方法手册与心得.docx

使用Weka进行数据挖掘的的基本方法手册与心得.docx

预览

免费试读已结束,剩余 4 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

简介什么是数据挖掘?您会不时地问自己这个问题,因为这个主题越来越得到技术界的关注。您可能听说过像Google和Yahoo!这样的公司都在生成有关其所有用户的数十亿的数据点,您不禁疑惑,“它们要所有这些信息干什么?”您可能还会惊奇地发现Walmart是最为先进的进行数据挖掘并将结果应用于业务的公司之一。现在世界上几乎所有的公司都在使用数据挖掘,并且目前尚未使用数据挖掘的公司在不久的将来就会发现自己处于极大的劣势。那么,您如何能让您和您的公司跟上数据挖掘的大潮呢?我们希望能够回答您所有关于数据挖掘的初级问题。我们也希望将一种免费的开源软件WaikatoEnvironmentforKnowledgeAnalysis(WEKA)介绍给您,您可以使用该软件来挖掘数据并将您对您用户、客户和业务的认知转变为有用的信息以提高收入。您会发现要想出色地完成挖掘数据的任务并不像您想象地那么困难。此外,本文还会介绍数据挖掘的第一种技术:回归,意思是根据现有的数据预测未来数据的值。它可能是挖掘数据最为简单的一种方式,您甚至以前曾经用您喜爱的某个流行的电子数据表软件进行过这种初级的数据挖掘(虽然WEKA可以做更为复杂的计算)。本系列后续的文章将会涉及挖掘数据的其他方法,包括群集、最近的邻居以及分类树。(如果您还不太知道这些术语是何意思,没关系。我们将在这个系列一一介绍。)HYPERLINK"http://www.ibm.com/developerworks/cn/opensource/os-weka1/index.html"\l"ibm-pcon"回页首什么是数据挖掘?数据挖掘,就其核心而言,是指将大量数据转变为有实际意义的模式和规则。并且,它还可以分为两种类型:直接的和间接的。在直接的数据挖掘中,您会尝试预测一个特定的数据点—比如,以给定的一个房子的售价来预测邻近地区内的其他房子的售价。在间接的数据挖掘中,您会尝试创建数据组或找到现有数据内的模式—比如,创建“中产阶级妇女”的人群。实际上,每次的美国人口统计都是在进行数据挖掘,政府想要收集每个国民的数据并将它转变为有用信息。现代的数据挖掘开始于20世纪90年代,那时候计算的强大以及计算和存储的成本均到达了一种很高的程度,各公司开始可以自己进行计算和存储,而无需再借助外界的计算帮助。此外,术语数据挖掘是全方位的,可指代诸多查看和转换数据的技术和过程。因为本系列只触及能用数据挖掘实现的功能的一些皮毛。数据挖掘的专家往往是数据统计方面的博士,并在此领域有10-30年的研究经验。这会为您留下一种印象,即只有大公司才能负担得起数据挖掘。我们希望能够清除有关数据挖掘的这些误解并希望弄清楚一点:数据挖掘既不像对一系列数据运行一个电子数据表函数那么简单,也不像有人想的那样难到靠自己根本无法实现。这是80/20范型的一个很好的例子—甚至更进一步可以是90/10范型。您用所谓的数据挖掘专家的10%的专业知识就能创建具有90%效力的数据挖掘模型。而为了补上模型剩下的10%的效力并创建一个完美的模型将需要90%额外的时间,甚至长达20年。所以除非您立志以数据挖掘为职业方向,否则“足够好”就可以了。从另一个方面看,利用数据挖掘所达到的“足够好”总要比您现在所采用的其他技术要好。数据挖掘的最终目标就是要创建一个模型,这个模型可改进您解读现有数据和将来数据的方式。由于现在已经有很多数据挖掘技术,因此创建一个好的模型的最主要的步骤是决定要使用哪种技术。而这则极大地依赖于实践和经验以及有效的指导。这之后,需要对模型进行优化以让它更令人满意。在阅读了本系列的文章后,您应该能够自己根据自己的数据集正确决定要使用的技术,然后采取必要的步骤对它进行优化。您将能够为您自己的数据创建一个足够好的模型。HYPERLINK"http://www.ibm.com/developerworks/cn/opensource/os-weka1/index.html"\l"ibm-pcon"回页首WEKA数据挖掘绝非大公司的专有,也不是多昂贵的软件。实际上,有一种软件可以实现那些价格不菲的软件所能实现的全部功能—这个软件就是WEKA(参见HYPERLINK"http://www.ibm.com/developerworks/cn/opensource/os-weka1/index.html"\l"resources"参考资料)。WEKA诞生于UniversityofWaikato(新西兰)并在1997年首次以其现代的格式实现。它使用了GNUGeneralPublicLicense(GPL)。该软件以Java™语言编写并包含了一个GUI来与数据文件交互并生成可视结果(比如表和曲线)。它还有一个通用API,所以您可以像