数据挖掘讲义.doc
上传人:yy****24 上传时间:2024-09-10 格式:DOC 页数:7 大小:186KB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

数据挖掘讲义.doc

数据挖掘讲义.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

从数据库角度研究从统计学角度研究从机器学角度研究参考书:数据挖掘原理DavidHand,HeikkiMannila和PadhraicS统计学角度考虑数据挖掘的发展动力:需要是发明之母。解决方法:数据仓库技术和数据挖掘数据仓库与在线分析处理数据挖掘:在大量的数据中挖掘感兴趣的知识数据库的事务处理和查询处理与文件系统的区别数据挖掘代名词知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获等。数据挖掘的不是数据而是知识、有用的知识。并非所有东西都是“数据挖掘”查询处理等都不是数据挖掘。数据挖掘的应用:数据分析和决策支持:市场分析和管理风险分析和管理数据从哪里来?(大量的数据,数据来源)信用卡交易、会员卡,商家的优惠等目标市场:构建一系列“客户群模型”这些顾客具有相同特征:举爱好,收入水平,消费习惯等。确定顾客的购买模式交叉市场分析:货物销售之间的相互联系和相关性,以及这种联系的预测。chinapub,买了某种书,数据挖掘:概念与技术,则其会推出会对数据挖掘原理感兴趣,大量数据推理出来的。产品之间的相关性。顾客分析:聚类分析或分类预测:哪类顾客购买哪种商品客户需求分析:确定适合不同顾客的最佳财务计划:现金流转分析和预测,交叉区域分析和时间序列分析资源计划:总结和比较资源和花费竞争:对竞争者和市场趋势的监控,将顾客按等级分组和基于等级的定价过程,将定价策略应用于竞争更激烈的市场中。网上冲浪:每次点击网页日志都会记,新兴的WEB挖掘研究。知识挖掘的步骤:了解应用领域:了解相关的知识和应用的目标创建目标数据集:选择数据数据清理和预处理(这可能要占全过程60%的工作量)数据缩减和变换:找到有用的特征,维数缩减/变量缩减,不变量的表示。选择数据挖掘的功能:数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等选择挖掘算法数据挖掘:寻找感兴趣的模式模式评估和知识表示:可视化,转换消除冗余模式告等运用发现的知识体系结构:典型数据挖掘系统数据库中存放数据服务器:是提供服务数据挖掘引擎:与服务器交互,用一定算法产生模式,然后对模式评估知识库:存放的有用模式,若模式与知识库中有则为有用的模式用可视化技术表示让更高层或普通人看得懂图形用户界面:用恰当的方式在何种数据上进行数据挖掘原则上可对任何数据进行挖掘,但在计算机系统中,只一般对关系数据库、数据仓库、事务数据库、高级数据库系统的信息库(空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产数据库、文本数据库和万维网。空间数据库:将一副地图存放在数据库中,是个空间数据库,如何存放在数据库中,不是简单的存放图片,地图用矢量图(把一个地图的各种要素用一系列矢量(如医院等),有方向的表示出来,不是象素)表示。常见的空间数据库数据类型:地理信息系统(GIS),遥感图像数据、医学图像数据。数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法,对有用模式进行智能检索。流数据挖掘是当前最热门的学科。多媒体数据以二进制在对象的形式进行存储。对于多媒体数据库的数据挖掘,需要将存储和检索技术结合。目前的主要方法包括构造多媒体数据立方体,多媒体数据库的多特征撮和基于相似的模式匹配。面向对象数据库和对象-关系数据库异构数据库和历史数据库,不同数据库之间的转换,所谓透明访问要将各个不同数据库的数据不同之处要做一个抽象层使得其变为统一。处理历史及异构数据库往往与webservices联系在一起的。(30分)文本数据库和万网:文本数据库:word等,半结构的xml(树状数据,结构不确定,自己可增加),万维网(最大的文本数据库,XML,文本数据库都可在网上找到):数据挖掘内容,内容检索、Web访问模式检索(WebServices,日志访问数据挖掘,热门研究方向)数据挖掘的主要方法:概念/类描述(归纳,总结和对比数据特性):特性化和区分()关联分析:购物栏,如chinapub推荐书,通过数据挖掘书与书之间关联分类和预测:通过构造模型(或函数)用来描述区别概念,用来预测类型标志未知的对象类。导出模型的表示:判定树、分类规则、神经网络。聚类分析:将类似的数据归类到一起,形成一个类别进行分析,最大化类内的相似性和最小化类间的相似性。通信常将孤立点作为噪音。孤立点(一些与数据的一般行为或模型不一致的孤立数据)分析:如欺诈行为。趋势和演变分析数据挖掘:多个学科的融合第二章数据仓库和数据挖掘的OLAP技术什么是数据仓库多维数据模型数据仓库实现数据立方体技术的进一步发