|
科学大数据管理的挑战
科学大数据管理涉及数据的收集、存储、处理、分析、可视化和共享等全生命周期管理。如图 1 所示,科学应用首先从科学装置接入或从互联网采集大量异构实验或观测数据,然后经过初步过滤、转换等数据预处理操作存入持久化设备形成原始科学数据。针对具体科研目标,应用对原始数据进一步运算抽取实验特征形成特征数据。科学应用对特征数据整合挖掘分析形成科学发现量化指标,并通过可视化的方法将科学发现展现出来。最后整个流程中产生的所有数据都将存档、发布以备将来查询、验证等科研目标使用。
科学大数据管理存在常见的“4V”问题,同时也具有独特的性质,这些性质决定了科学大数据管理系统生命周期中面临 4 个方面的挑战(SPUS)。
规模动态化(Scale Dynamic)。科学实验持续产生海量科学数据,并需进行长周期持久化存储。比如上文中提到的大部分科学研究项目(如 GWAC、LHC等)每秒产生 GB 量级的观测数据,并且数据无失效期,然而科研机构却无法事先确定存储和计算资源的配置以最优地满足科学应用需求。因此,如何弹性动态地为这些数据分配存储空间和数据处理资源是科学大数据管理需要面对的一个重大挑战。
流水线管理(Pipeline Management)。科学实验有严密的实验步骤,科学装置产生的海量原始科学数据会经过大量的特征提取、转换、分析等数据加工操作最终产出科研成果。以 GWAC 新星发现应用为例,原始数据进入系统以后,系统需要完成特征提取、交叉认证等严密的数据处理操作;新星预警发生后,系统需要溯源到预警产生的特征记录、天区图、镜头等并对它们进行反复确认。此外,同一个科学装置下也会出现大量类似的实验流程,因此有效地创建、执行、管理这些实验步骤和数据将极大提高科学实验的效率。
统一访问(Unified Access)。大科学应用经常会对不同领域、不同机构的异构数据进行融合挖掘分析。以中国科学家发起的 DBAR 国际科学计划为例,为了给地区决策提供参考,需要获取天、空、地综合数据资源构建共享的地球大数据平台。这其中涉及卫星遥感数据、气候观测站数据、生物观测站数据以及社交网络中的舆论热点数据等异构数据的融合管理。因此,如何用统一的方式访问多源异构数据将极大地提升科学发现的价值和规模。
共享管理(Sharing Management)。科学实验产生的成果数据以及中间数据通过互联开放共享以便集全世界科学家的力量进行实验验证、模型改进等后续科学研究,比如全世界物理学家通过互联网从 LHC 中获取数据进行粒子发现实验,并通过互联网共享科研成果。科学数据开放性带来的重大问题有:数据提供者与科研人员如何合理划分科研成果、数据提供者著作权认证和激励机制、共享数据的隐私保护等。如果不能妥善解决这些问题,将影响科研人员的积极性和科研生态圈的健康发展。