HADOOP-第一文库 | 海量文档资源下载与分享平台 - 涵盖3.5亿+学术、行业、教育文档

免费试读已结束，剩余 20 页请下载文档后查看

16 金币

下载此文档

/ 30

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

---------------分布式开发框架纽约证券交易所每天产生1TB的交易数据社交网站facebook的主机存储着约10亿张照片，占据PB级存储空间互联网档案馆存储着约2PB数据，并以每月至少20TB的速度增长。瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。这样的数据该怎么存储和读取？Facebook的服务器大概1万台，按照oracle的标准10g版本计算大约需要21亿元Hadoop一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop是项目的总称，主要是由分布式存储（HDFS）、分布式计算（MapReduce）组成。Hadoop程序目前只能运行在Linux系统上，window上运行需要安装其他插件，安装过程见《hadoop安装说明.docx》。可扩展：不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济：框架可以运行在任何普通的PC上。可靠：分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。（元数据磁盘错误，心跳测试，副本数，快照（目前还没实现））高效：分布式文件系统的高效数据交互实现以及MapReduce结合LocalData处理的模式，为高效处理海量的信息作了基础准备。超大文件指的是几百MB，几百GB，几百TB，甚至几百PB流式数据访问HDFS建立的思想是：一次写入、多次读取模式是最高效的。商用硬件hadoop不需要运行在昂贵并且高可靠的硬件上。低延迟数据访问HDFS是为了达到高数据吞吐量而优化的，这是以延迟为代价的，对于低延迟访问，可以用Hbase（hadoop的子项目）。大量的小文件多用户写入，任意修改储存基本单元Block(块)：HDFS基本储存单元，是个逻辑单元，和os中的页类似。一个文件有可能包含多个块，一个块有可以包含多个文件，由文件的大小和块大小的参数决定。dfs.block.size参数。Hdfs中Block的大小，默认64MB，如果设置大，就会有可能导致Map运行慢，设置小，有可能导致Map个数多，所有一定要设置适当。（目前主流机器建议设置为128M）Hdfs集群框架图NameNode记录着每个文件的元数据。每个文件在那个块中，每个数据节点包含哪些块。（不储存原始文件）DataNode是文件的工作者，它们存储文件并提供定位块的服务，并且定时向名称节点发送它们的存储块的列表。（储存原始文件）3.重要参数dfs.replication.min参数。最小为1，表示每个块在HDFS中的副本个数。Block的放置：默认不配置。一个Block会有三份备份，一份放在NameNode指定的DataNode，另一份放在与指定DataNode非同一Rack上的DataNode，最后一份放在与指定DataNode同一Rack上的DataNode上。备份无非就是为了数据安全，考虑同一Rack的失败情况以及不同Rack之间数据拷贝性能问题就采用这种配置方式。心跳检测DataNode的健康状况，如果发现问题就采取数据备份的方式来保证数据的安全性。数据复制（场景为DataNode失败、需要平衡DataNode的存储利用率和需要平衡DataNode数据交互压力等情况）：这里先说一下，使用HDFS的balancer命令，可以配置一个Threshold来平衡每一个DataNode磁盘利用率。例如设置了Threshold为10%，那么执行balancer命令的时候，首先统计所有DataNode的磁盘利用率的均值，然后判断如果某一个DataNode的磁盘利用率超过这个均值Threshold以上，那么将会把这个DataNode的block转移到磁盘利用率低的DataNode，这对于新节点的加入来说十分有用。数据交验：采用CRC32作数据交验。在文件Block写入的时候除了写入数据还会写入交验信息，在读取的时候需要交验后再读入。NameNode是单点：如果失败的话，任务处理信息将会纪录在本地文件系统和远端的文件系统中。数据管道性的写入：当客户端要写入文件到DataNode上，首先客户端读取一个Block然后写到第一个DataNode上，然后由第一个DataNode传递到备份的DataNode上，一直到所有需要写入这个Block的NataNode都成功写入，客户端才会继续开始写下一个Block。Writable接口序列化:指的是将结构化对象转换为字节流以便网络进行传输或者写入存储的过程。反序列化:指的是将字节流转为一系列结构化对象的过程。（java定义的序列化和反序列化