如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
数据挖掘:初探李昌峰PartIDataMiningFundamentalsChangfengLi数据挖掘:定义数据挖掘:是一个处理过程,利用一种或多数据挖掘:是一个处理过程,利用一种或多种计算机学习技术,从数据库的数据中自动分析并提取知识。目的:确定数据的趋势和模式。目的:确定数据的趋势和模式。RayKurzwell最近指出:98%的人类学习行Kurzwell最近指出:98%的人类学习行为都是模式识别。数据库技术演化1960S和以前。1960S和以前。文件系统1970S层次数据库和网状数据库1980S早期1980S早期关系数据模型1980S晚期1980S晚期各种高级数据库系统面向应用的数据库系统。1990S数据挖掘,数据仓库,多媒体数据库,网络数据库。2000S流数据管理和挖掘。基于各种应用的数据挖掘。XML数据库和整合的信息系统。XML数据库和整合的信息系统。数据挖掘的发展动力数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量数据被收集。我们拥有丰富的数据,但却缺乏有用的信息。解决办法:数据仓库技术和数据挖掘技术。数据仓库和在线分析处理(OLAP)数据仓库和在线分析处理(OLAP)数据挖掘:在大量数据中挖掘感兴趣的知识(数据挖掘:在大量数据中挖掘感兴趣的知识(规则、规律、模式、约束)模式、约束)数据挖掘三种研究领域数据库技术角度。统计学角度研究。基于机器学习技术。InductionInduction-basedLearning(基于归纳的学习)Learning(基于归纳的学习)Theprocessofforminggeneralconceptdefinitionsbyobservingspecificexamplesofconceptstobelearned.learned.通过观察所学概念的特定实例形成一般概念的过程。概念的过程。什么是学习?学习是一个复杂的过程,它可以被分为4学习是一个复杂的过程,它可以被分为4个级别:事实(Facts):简单陈述。事实(Facts):简单陈述。概念(Concept):具备某个特征而聚合在一起的概念(Concept):具备某个特征而聚合在一起的对象、符号或事件的集合。程序(proceding):为达到某种目的面采取的一程序(proceding):为达到某种目的面采取的一步一步的过程。原理(principles):学习的最高层次,为某种事原理(principles):学习的最高层次,为某种事实的规律。计算机最擅长的学习方式:概念概念是数据挖掘的输出方式。一般的概念结构包括树、规则、网络和数学方程。而网络和方程式是黑盒子式的概念结构,人们往往不易理解。学习数据挖掘的主要内容就是探讨概念的不同结构及其数据挖掘方法。三种普遍的概念观点如下:经典观点(Classical经典观点(Classicalview)所有的概念都有明确的定义属性,这些属性决定了个别项目是否为某个特殊概念的一个实例。不存在任何曲解。如:“无担保贷款的良好信用风险”定义,if年收入>=30,000if年收入>=30,000&保持目前职位的年数>=5保持目前职位的年数>=5&拥有住房=true拥有住房=truethen良好信用风险=truethen良好信用风险=true概率观点(probabilistic概率观点(probabilisticview)概念是由属性表示的,这些属性很可能是概念成员。通过对样本的观察产生概括作为概念。用概率观点定义良好信用风险如下:准时还贷的人,平均年收入/准时还贷的人,平均年收入/人=$30,000大多数具有良好信用风险的人在同一家公司工作至少5司工作至少5年。绝大多数具有良好信用风险的人拥有自己的住房。经典观点与概率观点的区别概率观点只是提供了一个一般性的参考,与经典的观点不同,不能直接找到答案。但这个定义可以用来帮助决策,可以将这个概率与一个特定分类相联系。样本观点(exemplar样本观点(exemplarview)如果一个给定实例与某个特殊概念的一个或多个已知例子所组成的集合充分的相似,则它被认为是这个概念的一个例子。也就是用储存的概念样本对新的实例进行分类。在分类上没有明确的界线。例:如果一个人与一个或多个表示良好信用例:如果一个人与一个或多个表示良好信用风险的人充分的相似,那他被归为具有良好信用风险的人类中。归纳学习是数据挖掘最基本的方法。归纳学习(induction归纳学习(induction-basedlearning):通过认learning):通过认知分析特定实例形成一般概念的过程。举例:1.很多的高尔夫比赛的电视转播都是由在1.很多的高尔夫比赛的电视