数据仓库实用教案.pptx
上传人:王子****青蛙 上传时间:2024-09-12 格式:PPTX 页数:65 大小:1.6MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

数据仓库实用教案.pptx

数据仓库实用教案.pptx

预览

免费试读已结束,剩余 55 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第13章数据仓库数据仓库的特征(tèzhēng)面向主题--数据(shùjù)按照主题进行组织在数据仓库中,主要主题领域是以一组相关(xiāngguān)的表来具体实现的。一个顾客的所有表通过(tōngguò)一个公共键码联系起来。公共键码顾客标识号(customerID)将在顾客主题领域中所找到的所有数据联系起来集成--多个数据源的数据集合成为一个(yīɡè)整体稳定(wěndìng)——数据仓库中的数据通常是历史数据时变——所有数据都有特定的时间(shíjiān)标识数据仓库与数据库的区别(qūbié)数据仓库的结构(jiégòu)数据仓库的引出1.传统数据库以及OLTP(On-LineTransactionProcessing联机事务处理)在日常的管理(guǎnlǐ)事务处理中获得了巨大的成功,但是对管理(guǎnlǐ)人员的决策分析要求却无法满足。2.因为,管理(guǎnlǐ)人员常常希望能够通过对组织中的大量数据进行分析,了解业务的的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。3.为满足管理(guǎnlǐ)人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(DataWarehose)。数据仓库的定义(dìngyì)与基本特性2.数据仓库的重要特性(tèxìng)a)subject-oriented(面向主题性)数据(shùjù)仓库的集成性是指根据决策分析的要求,将分散于各处的源数据(shùjù)进行抽取、筛选、清理、综合等工作,使数据(shùjù)仓库的数据(shùjù)具有集成性。也就是说,首先(shǒuxiān)要从源数据库中挑选出数据仓库所需要的数据,然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源中的数据的单位、字长与内容按照数据仓库的要求统一起来,消除源数据中字段的同名异义、异名同义现象,这些工作称为数据的清理(clean),把数据仓库的数据呈现给用户一个一致统一的视图。数据仓库的时变性,就是数据应该随着时间的推移(tuīyí)而变化。因此,数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,也就是说在数据仓库中必须不断的生成主题的新快照,以满足(mǎnzú)决策分析的需要。数据新快照生成的间隔,可以根据快照的生成速度和决策分析的需要而定。d)non-volatile数据(shùjù)的非易失性e)insupportofmanagementdecisions支持决策(juécè)系统尽管OLTP系统和数据仓库有着许多不同的特性且基本(jīběn)构建思想不同,但是他们却是紧密联系的,因为OLTP系统是数据仓库的数据来源。OLTP系统并不是为了快速回答查询,也不是为了存储分析趋势的历史数据而创建的。一般的,OLTP提供了大量的原始数据,这些数据不易被分析。数据仓库需要回答更复杂的查询,而不仅仅使一些像“英国主要城市的商品平均销售价格是多少”之类的简单聚集数据查询。数据仓库需要回答的查询类型可以是简单的查询,也可以是高度复杂的,且还与终端用户使用的查询工具相关。DreamHome数据仓库的示例(shìlì)支持以下查询:数据仓库的一个(yīɡè)案例沃尔玛早年利用NCR数据仓库技术,对商品进行市场类组分析,即分析哪些商品顾客最有希望一起购买。沃尔玛利用NCR自动数据挖掘工具(模式识别软件)对一年多详细的原始交易数据进行分析和挖掘。一个意外的发现就是:跟尿布一起购买最多的商品竟是啤酒(píjiǔ)!沃尔玛就在它的一个个商店里将它们并排摆放在一起,结果是尿布与啤酒(píjiǔ)的销售量双双增长。数据仓库的体系结构为了提高性能,数据仓库中通常采用下列措施:(1)采用并行系统结构。(2)对数据仓库中用得多、开销大的处理,例如聚集函数计算,采用新的查询优化策略和索引结构。(3)针对数据仓库以读为主的特点,把查询中常用的中间结果定义为视图,且将事先计算好的视图存于数据仓库中。在需要的时候只要(zhǐyào)读出即可,无需临时计算。为了决策者方便地在数据仓库上决策数据仓库还应该提供相应的用户接口和各种工具软件。从图13-1可以看出,数据仓库要求多项技术的支持,大致可分为五个方面:(1)异构多数据源集成技术。(2)RDBMS对数据仓库的支撑技术,包括OLAP和并行处理等技术。(3)硬件系统,包括并行处理结构、大容量磁盘阵列系统等。(4)数据模式设计,包括对决策主题的需求分析、基表和实现图的模式设计、各种(ɡèzhǒnɡ)索引的合理配置等。(5)决策用的工具和接口软件。操作型数据加载管理器:执行所有与提取和装载数据到数据仓库的有关操作。仓库管理器:执行管理一个数据仓库数据所有