Hadoop体系架构概述备份.pptx
上传人:骑着****猪猪 上传时间:2024-09-15 格式:PPTX 页数:23 大小:153KB 金币:20 举报 版权申诉
预览加载中,请您耐心等待几秒...

Hadoop体系架构概述备份.pptx

Hadoop体系架构概述备份.pptx

预览

免费试读已结束,剩余 13 页请下载文档后查看

20 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

会计学Hadoop概述分布式文件系统(HadoopDistributedFileSystem,HDFS)并行计算模型(Map/Reduce)列式数据库(HBase)数据仓库(Hive)数据分析语言(Pig)数据格式转化工具(Sqoop)协同工作系统(Zookeeper)数据序列化系统(Avro)Hadoop整体框架下特点HDFS概述-----基本特征HDFS的对现实应用环境的假设及其目标HDFS架构Map/Reduce简介Map/Reduce概念Map/Reduce模型一次Map/Reduce任务过程。用户提交任务给JobTracer,JobTracer把对应的用户程序中的Map操作和Reduce操作映射至TaskTracer节点中;输入模块负责把输入数据分成小数据块,然后把它们传给Map节点;Map节点得到每一个key/value对,处理后产生一个或多个key/value对,然后写入文件;Reduce节点获取临时文件中的数据,对带有相同key的数据进行迭代计算,然后把终结果写入文件。Map/Reduce优缺点Hbase简介Hbase数据模型HBase下表的逻辑视图HBase下表的物理视图一张表创建的初始阶段其中只含有一个Region,随着表中数据的量的不断增多,一个Region会分裂为两个Region,然后不断重复上述过程,并且Region会被存储到HDFS中不同的DataNode上。Region包含有一个或多个的Store,其数量增长过程同表中的Region数量增长过程一致。但是Store中分为两个部分:第一个部分是Memstore,一个Store中只包含一个Memstore,并且Memstore存储在内存空间中;第二个部分是Storefile,此部分由Memstore写入硬盘而得。随着Memstore写入硬盘的次数增多,Storefile的数量也会增加,当文件个数增加到一定量时,系统会自动对Storefile文件进行合并。合并过程中主要完成以下几个工作:1.具有相同行键的行存放在一个文件中;2.扔掉被标志为删除的行;3.扔掉时间戳过期的行,完成更新操作。随着合并操作的频繁执行Storefile会变得很大,达到一定文件大小时自动分裂文件,贴合HDFS中对一个块数据大小的定义。HBase的一张表中的多个列族(ColumnFamily),在物理存储上一个列族对应一个文件夹,一个文件夹中可包含若干个Hfile文件。Hfile是图(2-4)中Storefile的底层文件格式,StoreFile就是对Hfile做了轻量级包装。一个Hfile中包含有若干个数据块(Datablock)和对应数量的元数据块(Metablock)。数据块中以键值对形式存放的用户数据被称之为记录(Record),一条记录保存一个键值对或者说保存一个单元的数据;元数据块其主要作用是判断一个键值是都在当前Hfile文件中;文件信息(FileInfo)中保存了与该HFile相关的一些信息,其中有系统保留的一些固定的值,也可以保存用户自定义的一些值;数据块索引(DataBlockIndex)保存的是每一个数据块在HFile文件中的位置、大小信息以及每个块的第一个单元的键值;元数据索引(MetaBlockIndex)的格式与数据库索引相同,元数据块索引保存的是每一个元数据在HFile文件中的位置、大小信息以及每个元数据的键值;文件尾(Fixedfiletrailer)主要保存了该Hfile的一些基本信息,其大小固定,主要是可以根据它查找到Fileinfo,BlockIndex的起始位置。