科学大数据管理技术与系统

发布时间：2018-09-07 11:51:11 | 来源：中国网·中国发展门户网 | 作者：黎建辉李跃鹏王华进陈明奇 | 责任编辑：赵斌宇

关键词：科学大数据,融合查询,流水线,数据共享,弹性伸缩

科学大数据应用场景及管理需求

科学大数据的应用场景及典型特征

科学数据是科研活动的输入、输出和资产，是证实或者证伪科学发现或科学观点事实、证据或者论证推理的基础。它包括数字化观测、科学监测等来自仪器设备或传感器的数据，计算模拟与模型输出的数据，对情景或现象的描述，对行为的观测或定性描述，以及用于管理或者商业目的的统计数据等。目前科学大数据普遍存在于各个领域的科学研究，尤其在天文学、高能物理、微生物学等大科学领域，科学大数据的应用场景尤为明显。

在天文学领域，中法合作伽马暴探测天文卫星SVOM 的关键地面设备 GWAC 的每个相机 15 s 内会产生 32 MB 的天区图，并于下一个天区图产生之前完成点源提取、交叉认证等操作，最终在 3—5 s 内完成 100 万—10 000 万行星表数据的插入，10 亿—100 亿行星表数据的 JOIN 运算。

在高能物理领域，欧洲核子物理研究组织构建的大型强子对撞机（LHC）每秒进行 6 亿次碰撞实验，产生 6 PB 事例数据，经事例筛选后存储大约 1 GB 实验数据。目前 LHC 产生的实验数据已超过 200 PB，未来 5 年 LHC 产生的数据将会超过 1 EB，事例数将达到千万亿级别，需在 10 s 内完成百万分之一的事例筛选操作。

在微生物学领域，中国科学院微生物研究所世界数据中心（WDCM）对 Taxonomy、GenBank、Gene 等 36 个数据源进行实体识别、歧义消除、本体构建等数据处理操作，构建了包含 830 万个节点、1.3 亿条边的知识图谱结构。预计未来 5 年内，WDCM 还将汇聚开放生物资源、文献、序列和疾病等数据，在 10 000 多个数据源中构建 100 亿条关联的知识图谱数据，并要求 1 s 内完成 100 亿条关联数据的 6 步关联查询。

自 2011 年麦肯锡年度总结报告中提出“大数据”概念以来，学术界和工业界对大数据定义一直存在争议，这些争议主要来自不同领域中大数据的特征体现。目前学术界公认大数据具有“4V”特征——体量大（volume）、生成快（velocity）、多样性（variety）和密度低（value），科学大数据应用场景充分体现了这“4V”特征，并具有以下独特的性质。

科学发现的准确性建立在海量实验数据的重复计算验证之上。例如，“上帝粒子”和暗物质发现的正确性经过了对数百 PB 量级数据的多次重复计算，多次验证重复出现同一结论时才能发布结论。

短时间内科学实验会产生大量观测数据并进行流程化处理，实验数据会持续进入持久化存储设备进行长周期存储。例如，GWAC 在 15 s 内完成 40×32 MB 天区图的点源检测、入库等操作，产生的所有数据将永久存储。

科学现象观测的量化指标存在图像、语音、时间序列等形式，数据分布在不同国家和机构中，科学研究需要整合这些多源异构数据。例如，WDCM 整合 36 个包括文本、网页、医疗记录在内的数据源完成知识图谱构建。

科学数据来自大科学装置、互联网、国家机构等，数据与国家利益和个人隐私相关，数据共享和挖掘分析会产生更大的社会推进作用。例如，“数字丝路”（DBAR）国际科学计划涉及“一带一路”沿线 65 个国家共享的地理、农业、社会舆论等数据，挖掘分析这些数据可为地区、国家的决策提供重要参考，然而如何分享成果收益、保护数据隐私是该计划面临的一个重要问题。

科学大数据的这些性质对数据管理系统提出了巨大挑战。

< 1 2 3 4 5 6 7 >

科学大数据管理技术与系统

相关文章