如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
2010年2月第45卷第1期#软件开发与应用#面向地震数据处理的并行与分布式编程框架*¹¹º¹¹赵长海晏海华王宏琳史晓华王雷(¹北京航空航天大学计算机学院,北京100191;º东方地球物理公司,河北涿州072751)赵长海,晏海华,王宏琳,史晓华,王雷.面向地震数据处理的并行与分布式编程框架.石油地球物理勘探,2010,45(1):146~155摘要本文提出了一个适用于地震资料处理的并行与分布式编程框架GeoPF。该框架构建在集群系统之上,采用粗粒度数据并行执行模型,它可以调度串行语言编写的处理模块,同时运行在多个计算节点或者单个节点内的多个CPU核上,隐藏了计算节点及其CPU核的调度、通讯与节点故障恢复、模块之间的数据传输等并行编程细节。经过实验评估,GeoPF框架从串行到并行的线性加速性能有所提高,处理相同任务的时间从21h33min缩减到15min27s,效果显著。GeoPF与商用的地震数据处理系统相比,在业务流程方面有一些相同特点,其不同之处就是GeoPF的处理模块具有自动并行特点,而大部分地震处理模块只能是串行方式。关键词地震数据处理并行编程分布式编程编程框架粗粒度数据并行几千位(kB)到几十千位不等。道集是具有某一共1概述同属性的地震道的集合,如共炮点(CSP)、共中心点(CMP)和共接收点(CRP)道集,一个道集包括几十在石油工业领域,地球物理勘探的主要目的是到几千地震道不等。处理模块是地震处理算法的程获取地下构造圈闭、发现油气藏。为达到此目的,需序实现,在现代大多数地震处理系统中,处理模块是要进行大量的地震勘测获取地下原始信息,并将这基本的编程单元,以动态链接库的形式存在,使用时些信息经过复杂的迭代处理,从中反演出地质模型,多个处理模块首尾相连,一个执行程序需动态加载进而推断油藏信息。在地球物理勘探中以地震勘探这些模块并控制数据流过模块链,不同系统的处理使用效果最好,但地震勘探的原始数据信噪比非常模块接口规范差异很大。为了并行编程的需要,本低,而且数据量非常大(达到TB级),因此地震数据文根据算法的数据依赖性,将处理模块分为三类:处理对计算能力要求非常高。与天体演变研究、核(1)单道模块此类模块一次接收一个输入道,爆炸模拟、中长期天气预报和大规模事务处理等为处理完毕后输出一道、几道或者没有任何输出;数不多的几个领域一样,一直属于高性能计算机的(2)道集模块也称为多道模块,每次接收一个重要应用范畴[1]。道集输入,处理完毕后输出一个道集、一道或者没有地震数据处理流程可分为两个阶段。第一阶段任何输出;是应用信号处理算法提高信噪比,目前有几百种算(3)全局模块这类模块对整个数据体都有依法可应用于这个阶段;第二阶段是地震偏移成像,将赖,叠前时间/深度偏移属于此类模块。地震波能量归位到其真实的空间位置,获取地下的地震数据处理属于数据密集型和计算密集型兼真实构造图像,相比第一阶段,这个阶段的计算量更备的高性能计算,一块勘探面积的地震数据往往需大,Kirchhoff积分偏移、有限差分偏移和逆时偏要花费数个月的处理时间。长期以来,计算性能的移[2]属于这个阶段的算法。提高主要得益于处理器时钟频率的提升,但由于物地震道是地震数据的基本单位,一道地震数据理条件的限制,处理器主频提高的步伐缓慢,于是多的大小与采样时间长度和采样间隔有关,其容量从核框架成为提高CPU性能的主流技术。然而单线*北京市海淀区航空航天大学计算机学院,100191本文于2009年2月1日收到,修改稿于同年6月24日收到。基金项目:国家高技术研究发展计划863(2007AA060401)。第45卷第1期赵长海等:面向地震数据处理的并行与分布式编程框架147程程序并不能随着处理器的升级而获得性能的提增长的加速比。升[3]。可是并发编程非常困难[4],虽然如今部分面下面首先介绍GeoPF的系统设计,包括执行模向特定领域的并行编程模型已经取得很大的成型、数据模型和编程模型;第二部分介绍框架的运行功[5],但仍缺乏通用的高生产率的并发编程模型能时系统,主要是关键技术的实现与优化;第三部分实够充分发挥高性能计算机硬件的性能。UCBerke-验评估分析GeoPF的性能以及性能瓶颈;第四部分ley的研究报告[6]指出,并行编程模型的研究应该采比较相关的研究工作;最后总结全文并给出进一步用/自顶向下0的研究方法,选取典型的并行应用,并的研究方向。以应用为驱动研究真正符合终端用户需求的模型。基于笔者经验,面向地震勘探领域的并行编程模型2系统设计要取得成功,必须满足如下需求。(1)易编程。如何为开发人员提供更加简单的2.1执行模型编程手段,使其能够编写有效的并