|
科学大数据应用场景及管理需求
科学大数据的应用场景及典型特征
科学数据是科研活动的输入、输出和资产,是证实或者证伪科学发现或科学观点事实、证据或者论证推理的基础。它包括数字化观测、科学监测等来自仪器设备或传感器的数据,计算模拟与模型输出的数据,对情景或现象的描述,对行为的观测或定性描述,以及用于管理或者商业目的的统计数据等。目前科学大数据普遍存在于各个领域的科学研究,尤其在天文学、高能物理、微生物学等大科学领域,科学大数据的应用场景尤为明显。
在天文学领域,中法合作伽马暴探测天文卫星SVOM 的关键地面设备 GWAC 的每个相机 15 s 内会产生 32 MB 的天区图,并于下一个天区图产生之前完成点源提取、交叉认证等操作,最终在 3—5 s 内完成 100 万—10 000 万行星表数据的插入,10 亿—100 亿行星表数据的 JOIN 运算。
在高能物理领域,欧洲核子物理研究组织构建的大型强子对撞机(LHC)每秒进行 6 亿次碰撞实验,产生 6 PB 事例数据,经事例筛选后存储大约 1 GB 实验数据。目前 LHC 产生的实验数据已超过 200 PB,未来 5 年 LHC 产生的数据将会超过 1 EB,事例数将达到千万亿级别,需在 10 s 内完成百万分之一的事例筛选操作。
在微生物学领域,中国科学院微生物研究所世界数据中心(WDCM)对 Taxonomy、GenBank、Gene 等 36 个数据源进行实体识别、歧义消除、本体构建等数据处理操作,构建了包含 830 万个节点、1.3 亿条边的知识图谱结构。预计未来 5 年内,WDCM 还将汇聚开放生物资源、文献、序列和疾病等数据,在 10 000 多个数据源中构建 100 亿条关联的知识图谱数据,并要求 1 s 内完成 100 亿条关联数据的 6 步关联查询。
自 2011 年麦肯锡年度总结报告中提出“大数据”概念以来,学术界和工业界对大数据定义一直存在争议,这些争议主要来自不同领域中大数据的特征体现。目前学术界公认大数据具有“4V”特征——体量大(volume)、生成快(velocity)、多样性(variety)和密度低(value),科学大数据应用场景充分体现了这“4V”特征,并具有以下独特的性质。
科学发现的准确性建立在海量实验数据的重复计算验证之上。例如,“上帝粒子”和暗物质发现的正确性经过了对数百 PB 量级数据的多次重复计算,多次验证重复出现同一结论时才能发布结论。
短时间内科学实验会产生大量观测数据并进行流程化处理,实验数据会持续进入持久化存储设备进行长周期存储。例如,GWAC 在 15 s 内完成 40×32 MB 天区图的点源检测、入库等操作,产生的所有数据将永久存储。
科学现象观测的量化指标存在图像、语音、时间序列等形式,数据分布在不同国家和机构中,科学研究需要整合这些多源异构数据。例如,WDCM 整合 36 个包括文本、网页、医疗记录在内的数据源完成知识图谱构建。
科学数据来自大科学装置、互联网、国家机构等,数据与国家利益和个人隐私相关,数据共享和挖掘分析会产生更大的社会推进作用。例如,“数字丝路”(DBAR)国际科学计划涉及“一带一路”沿线 65 个国家共享的地理、农业、社会舆论等数据,挖掘分析这些数据可为地区、国家的决策提供重要参考,然而如何分享成果收益、保护数据隐私是该计划面临的一个重要问题。
科学大数据的这些性质对数据管理系统提出了巨大挑战。