数据挖掘课设报告.doc
上传人:天马****23 上传时间:2024-09-12 格式:DOC 页数:29 大小:3.3MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

数据挖掘课设报告.doc

数据挖掘课设报告.doc

预览

免费试读已结束,剩余 19 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

XI`ANTECHNOLOGICALUNIVERSITY课程设计报告课程名称数据挖掘专业:信息管理与信息系统班级:130513姓名:贾丹丹学号:130513117指导教师:李刚成绩:2016年1月3日前言数据挖掘就是从大量的数据中挖掘出有用的信息。它是根据人们的特定要求,从浩如烟海的数据中找出所需的信息来,供人们的特定需求使用。据国外专家预测,随着数据量的日益积累和计算机的广泛应用,在今后的5—10年内,数据挖掘将在中国形成一个新型的产业。数据挖掘,在人工智能领域,习惯上又称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:(1)数据准备(2)数据挖掘(3)结果表达和解释。数据挖掘可以与用户或知识库交互。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘中的分类反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指导的学习方法。该方法先根据训练子集(又称为窗口)形成决策树。如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的属性,该分枝对应该属性的某一可能值。目录TOC\o"1-2"\h\uHYPERLINK\l_Toc192321业务理解PAGEREF_Toc192321HYPERLINK\l_Toc23482数据理解PAGEREF_Toc23481HYPERLINK\l_Toc161772.1英文版数据说明PAGEREF_Toc161771HYPERLINK\l_Toc24522.2数据的读入PAGEREF_Toc24522HYPERLINK\l_Toc282322.3浏览数据内容PAGEREF_Toc282322HYPERLINK\l_Toc64002.4指定各个变量的作用PAGEREF_Toc64003HYPERLINK\l_Toc248432.5观察各变量的数据分布特征PAGEREF_Toc248434HYPERLINK\l_Toc307913数据准备PAGEREF_Toc307914HYPERLINK\l_Toc196293.1对数据进行重新分类PAGEREF_Toc196294HYPERLINK\l_Toc22013.2对数据进行平衡处理PAGEREF_Toc22016HYPERLINK\l_Toc212914建立决策树模型PAGEREF_Toc212916HYPERLINK\l_Toc152084.1C5.0,CART,CHAID算法介绍PAGEREF_Toc152087HYPERLINK\l_Toc87104.2模型建立PAGEREF_Toc87108HYPERLINK\l_Toc272964.3模型计算结果PAGEREF_Toc2729614HYPERLINK\l_Toc194914.4模型结果分析PAGEREF_Toc1949117HYPERLINK\l_Toc91085模型评估PAGEREF_Toc910818HYPERLINK\l_Toc244566总结PAGEREF_Toc2445620HYPERLINK\l_Toc577附录1:zoo.datePAGEREF_Toc57721HYPERLINK\l_Toc32260附录2:zoo.namesPAGEREF_Toc3226024PAGE\*MERGEFORMAT261业务理解动物园动物数量大,种类多,对动物园的动物根据它们的特征进行分类,以便于观察和分析动物的特征,进而更加合理的管理动物以及为未来查找动物信息提供参考。2数据理解该数据集是从UCI网站上获得的一份关于动物园的动物的数据。该数据是收集的动物园中99种动物的特征,包括hair,feathers,eg