分布式与云计算系统第2章 PPT.ppt
上传人:王子****青蛙 上传时间:2024-09-14 格式:PPT 页数:66 大小:15.7MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

分布式与云计算系统第2章 PPT.ppt

分布式与云计算系统第2章PPT.ppt

预览

免费试读已结束,剩余 56 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

分布式与云计算系统第2章2.1大规模并行集群计算机集群(computercluster)由相互联系的个体计算机聚集组成,这些计算机之间相互联系并且共同工作对于用户来说,计算机集群如同一个独立完整的计算资源池。集群化实现作业级的大规模并行,并通过独立操作实现高可用性。计算机集群和大规模并行处理器(MPP)的优点包括可扩展性能、高可用性、容错、模块化增长和使用商用组件。3计算机集群的设计宗旨:可扩展性:计算机集群化是基于模块化增长的概念.将几百个单处理器节点的集群扩展为10000个多核节点的超级集群。这一些因素限制:如多核心芯片技术、集群拓扑结构、封装方式、电力消耗和冷控制技术应用。封装:集群节点可以被封装成紧凑或者松散的形式。封装直接影响通信线路的长度,需要选择合适的互连技术。紧凑集群通常利用专有的高带宽、低延迟的通信网络,而松散集群节点一般由标准的局域网或广域网连接。控制:集群能够以集中或分散的形式被控制或管理。紧凑集群通常集中控制,而松散集群可以采取另一种方式。在集中式集群中,中心管理者拥有、控制、管理和操作所有节点。在分散式集群中,节点有各自的拥有者。它同样需要进程调度、负载迁移、检查点、记账和其他类似任务的特殊技术。同构性:同构集群采用来自相同平台的节点,即节点具有相同处理器体系结构和相同操作系统。异构集群使用来自不同平台的节点。互操作性是异构集群的一个非常重要的问题。在同构集群中,二进制进程镜像可以迁移到另一个节点并能够继续执行。这在异构集群中是不允许的,因为当进程迁移到不同平台的节点上时,二进制代码不继续执行。基础集群设计问题:可扩展性能:资源扩展(集群节点、内存容量、I/O带宽等)使性能成比例增长单系统镜像(SSI):集群是一个单一独立的系统。可用性支持:集群能够利用处理器、内存、磁盘、I/O设备、网络和操作系统镜像的大量冗余提供低成本、高可用性的性能。集群作业管理:实现高系统利用率,作业管理软件需要提供批量、负载均衡和并行处理等功能。节点间通信:集群由于具有更高的节点复杂度,故不能被封装得如MPP节点一样的简洁。集群内节点之间的物理网线长度比MPP长。容错和恢复:机器集群能够消除所有的单点失效。集群能在一定程度上容忍出错的情况。故障节点上运行的关键作业可以被转移到正常运行的节点上。回滚恢复机制通过周期性记录检查点来恢复计算结果。大家学习辛苦了,还是要坚持集群分类:计算集群:主要用于单一大规模作业的集体计算。当单一计算作业需要集群中节点间的频繁通信,该集群必须共享一个专用网络,因而这些节点大多是同构和紧耦合的。这种类型的集群也被称为贝奥武夫集群。当集群需要在少量重负载节点间通信时,其从本质上就是众所周知的计算网格。紧耦合计算集群用于超级计算应用。高可用性集群:用于容错和实现服务的高可用性。高可用性集群中有很多冗余节点以容忍故障或失效。负载均衡集群:通过使集群中所有节点的负载均衡而达到更高的资源利用。可以在不同机器间平衡负载,从而达到更高的资源利用或性能。1314图2-3前5名超级计算机的能耗和性能(2010年11月)2.2计算机集群和MPP体系结构基本集群体系结构ResourceSharinginClusterofComputers节点结构和MPP封装:IBMBlueGene/LSupercomputer:TheWorldFastestMessage-PassingMPPbuiltin2005集群系统互连谷歌搜索引擎集群体系结构图2-8Top500系统高带宽互连的分布情况图2-9InfiniBand系统构造在典型高性能计算机集群中的应用硬件、软件和中间件支持大规模并行GPU集群图2-12由GPU层次网络构成的NVIDIAEchelon系统的体系结构,其中每个机柜可以提供2.6Pflops的性能,至少需要N=400个机柜才能实现所需的Eflops性能CUDA并行编程CUDA(ComputeUnifiedDeviceArchitecture,计算统一设备体系结构)由NVIDIA开发,提供并行计算体系结构。CUDA是NVIDIAGPU中的计算引擎,允许开发者通过标准程序语言访问。程序员可以使用NVIDIA扩展和受限的CUDAC。CUDAC通过PathScaleOpen64C编译器编译,可以在大量GPU核上并行执行。例2.4体现了在并行处理中使用CUDAC的好处。2.3计算机集群的设计原则单系统镜像特征:单一系统用户将整个集群作为一个多处理器系统。单一控制逻辑上,一个终端用户或系统用户在一个地方只能通过单一的接口使用服务。对称性用户可以从任意节点使用集群服务。除了受到访问权限保护的部分,所有集群服务和功能对于所有节点和所有用户是对称的。位置透明性用户并不了解什