如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
蛋白质组学元数据仓库的管理与维护摘要:在针对生物数据源具有的分布、异构和动态等特性下,建立的蛋白质组学元数据仓库的基础上,本文给出了删除元数据的方法,以及解决了由于删除元数据和生物数据源更新而带来的元仓库中元数据的变化,而引起的用户模式与元数据的映射不匹配等问题。关键词:删除;元数据;生物数据源ProteomicsdatawarehousemanagementandmaintenanceAbstract:Inresponsetobiologicaldatasourcehasthedistribution,heterogeneousanddynamiccharacteristics,establishmentofaproteomicsmetadataofdatawarehousebasedon,Thispaperpresentsamethodtoremovemetadata,andsolveremovemetadataandbiologicaldatasourceupdatemetadatawarehousemetadatachangescausedbyuser-modemetadatamappingdoesnotmatchtheotherissues.Keywords:Deleted;metadata;biologicaldatasources基金项目:国家高技术研究发展计划(863计划)资助(2006AA02A312)FoundationItem:SupportedbyNationalHighTechnologyResearchandDevelopmentProgramofChina(2006AA02A312)1引言随着科技的不断进步,人类对生物信息学的研究也在不断地深入。为了应对生物技术高速发展而引发的数据存储、分析等的应用需求,新的数据库不断建立,存储的数据呈指数级增长(图1),研究人员需要的数据也开始不只限于某个单一数据库,而是分散在多个相关数据源中[5]。对高度复杂的海量实验数据进行存储、共享与整合成为了生物信息学研究中最重要的问题之一。目前各个大型生物数据库是由不同的研究机构在不同技术与科研条件下根据其自身的需要建立的,研究或应用的背景也各不相同,从而形成语法、语义、模式等方面的异构[1]。除此之外,这些数据库大都具有分布、自治和动态的特点,给科研人员的访问和使用带来了极大的影响。伴随着研究发展而新出现的生物数据库也有类似的问题。诸多的异构数据源严重影响了数据的共享与整合,给研究工作造成了许多困难。图1主要生物数据库规模呈指数级增长趋势图[2]多年来,人们试图通过各种办法来解决数据整合的问题。联邦数据库、中间件和数据仓库等技术在不同的着重点和应用上部分的解决了数据共享问题,然而数据源模式异构的问题还是没有从根本上得到解决。元数据是关于数据的数据,是对数据源所存储数据的详细描述,不仅包含了数据的名称、类型等信息,还提供了数据的上下文描述信息,例如数据的来源、取值范围、业务规则等。如果将各数据源的元数据按照一个统一的标准提取出来集中存放在一个元数据库中,并映射到按照用户的查询要求而建立的用户模式上,就能够通过解析用户模式得到对应的各数据源模式查询;对各数据源查询结果进行连接、合并等操作,并按用户模式进行输出,就能够实现数据的共享和整合。基于以上分析,我们提出了基于元数据的蛋白质组学数据资源共享与整合方案,本文讨论的内容是元仓库的管理与维护,主要是在元仓库的基础上删除元数据的方法,并解决由于删除元数据和生物数据源更新而带来的元数据的变化,以及在这种情况下如何解决用户模式与元数据的映射等一系列问题。2工作基础在引言部分中已经介绍过,元数据包含了对数据源中数据的详细描述。因此,通过抽取各数据源的元数据,可以对要集成的数据源在结构上有一个更直观的认识。与数据仓库的集成方法相比,使用元数据进行数据集成有以下特点:(1)元数据库中存储的是各数据源的结构信息,按照统一的元数据标准进行描述后集中存放在元数据库中,能够保持各数据源的结构特征。(2)建立元数据库所抽取的多个数据源的元数据与海量的实验数据相比存储压力要小得多,而且由于各数据源的结构相对稳定,元数据更新频率远低于数据更新频率,同时在查询时是通过元数据直接访问相关的数据源,能够保证查询效率和结果的准确与全面。公共仓库元模型(CommonWarehouseMetamodel,CWM)是一个完整的描述数据仓库和业务分析领域的元模型,提供了构建元数据所需的语法和语义。CWM元模型具有良好的树状层次结构和继承机制,已经获得了广泛的支持,成为了元数据的一个重要标准[1]。刘文杰等设计并实现了一个元