Hadoop体系架构概述备份-第一文库 | 海量文档资源下载与分享平台

免费试读已结束，剩余 13 页请下载文档后查看

20 金币

下载此文档

/ 23

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

会计学Hadoop概述分布式文件系统（HadoopDistributedFileSystem，HDFS）并行计算模型（Map/Reduce）列式数据库（HBase）数据仓库（Hive）数据分析语言（Pig）数据格式转化工具（Sqoop）协同工作系统（Zookeeper）数据序列化系统（Avro）Hadoop整体框架下特点HDFS概述-----基本特征HDFS的对现实应用环境的假设及其目标HDFS架构Map/Reduce简介Map/Reduce概念Map/Reduce模型一次Map/Reduce任务过程。用户提交任务给JobTracer，JobTracer把对应的用户程序中的Map操作和Reduce操作映射至TaskTracer节点中；输入模块负责把输入数据分成小数据块，然后把它们传给Map节点；Map节点得到每一个key/value对，处理后产生一个或多个key/value对，然后写入文件；Reduce节点获取临时文件中的数据，对带有相同key的数据进行迭代计算，然后把终结果写入文件。Map/Reduce优缺点Hbase简介Hbase数据模型HBase下表的逻辑视图HBase下表的物理视图一张表创建的初始阶段其中只含有一个Region，随着表中数据的量的不断增多，一个Region会分裂为两个Region，然后不断重复上述过程，并且Region会被存储到HDFS中不同的DataNode上。Region包含有一个或多个的Store，其数量增长过程同表中的Region数量增长过程一致。但是Store中分为两个部分：第一个部分是Memstore，一个Store中只包含一个Memstore，并且Memstore存储在内存空间中；第二个部分是Storefile，此部分由Memstore写入硬盘而得。随着Memstore写入硬盘的次数增多，Storefile的数量也会增加，当文件个数增加到一定量时，系统会自动对Storefile文件进行合并。合并过程中主要完成以下几个工作：1.具有相同行键的行存放在一个文件中；2.扔掉被标志为删除的行；3.扔掉时间戳过期的行，完成更新操作。随着合并操作的频繁执行Storefile会变得很大，达到一定文件大小时自动分裂文件，贴合HDFS中对一个块数据大小的定义。HBase的一张表中的多个列族（ColumnFamily），在物理存储上一个列族对应一个文件夹，一个文件夹中可包含若干个Hfile文件。Hfile是图（2-4）中Storefile的底层文件格式，StoreFile就是对Hfile做了轻量级包装。一个Hfile中包含有若干个数据块（Datablock）和对应数量的元数据块（Metablock）。数据块中以键值对形式存放的用户数据被称之为记录（Record），一条记录保存一个键值对或者说保存一个单元的数据；元数据块其主要作用是判断一个键值是都在当前Hfile文件中；文件信息（FileInfo）中保存了与该HFile相关的一些信息，其中有系统保留的一些固定的值，也可以保存用户自定义的一些值；数据块索引（DataBlockIndex）保存的是每一个数据块在HFile文件中的位置、大小信息以及每个块的第一个单元的键值；元数据索引（MetaBlockIndex）的格式与数据库索引相同，元数据块索引保存的是每一个元数据在HFile文件中的位置、大小信息以及每个元数据的键值；文件尾（Fixedfiletrailer）主要保存了该Hfile的一些基本信息，其大小固定，主要是可以根据它查找到Fileinfo，BlockIndex的起始位置。