|
科学大数据的认识
作为大数据的一个分支,科学大数据正在成为科学发现的新型驱动力,引起有关国家和科技界的高度重视。欧盟提出“科学是一项全球性事业,而科研数据是全球的资产”的理念。美国的“从大数据到知识”计划、欧盟的“数据价值链战略计划”、英国的“科研数据之春”计划、澳大利亚的“大数据知识发现”项目、欧洲“地平线 2020”计划的“数据驱动型创新”课题,均聚焦于从海量和复杂的数据中获取知识的能力,深入研究基于大数据价值链的创新机制,倡导大数据驱动的科学发现模式。大数据的影响已触及自然科学、社会科学、人文科学和工程科学的各个研究领域,不同领域的大数据研究中心陆续成立。我国部署了一系列大数据科技项目,组建了不同研究方向的大数据实验室,中国科学院推出了“科学大数据工程”计划。
科学大数据具有数据密集型范式的特点,它具有数据的不可重复性、数据的高度不确定性、数据的高维特性、数据分析的高度计算复杂性等特征。利用大量数据的相关性可取代因果关系和理论与模型,基于数据间的相关性能够获得新知识、新发现。比如,早在 1609 年,第谷 ×布拉赫的助手约翰尼斯 ×开普勒从布拉赫对天体运动的系数观察记录中发现了行星运动定律,并发表了伟大的著作《新天文学》;又如,欧洲大型强子对撞机帮助物理学家检验关于不同粒子物理和高能物理理论的猜想,并且确定了希格斯玻色子的存在;再如,大数据使基因组学的科学发现成为可能;还如,时空大数据在全球环境研究变化中正发挥重大作用。
越来越多的科学发现证明,大科学装置是人类认识自然世界的重要手段。对地观测卫星、大型望远镜、大型强子对撞机、高通量科学仪器、传感器网络等一系列大装置的成功运行,使得科学大数据与大装置和大科学间的关系越发密切。近年来,我国的大装置诸如 500 m 口径球面射电望远镜、系列空间科学卫星等的问世,为通过科学大数据认知大自然提供了强大的基础。为满足庞大且日益快速增长的科学大数据的应用需求,迫切需要建立一些能够共享数据、算法、模型的开放系统,以此实现对已有数据的科学分析和集成应用。一个典型的例子是,2017 年 10 月,欧洲航天局“哨兵 -5P”卫星发射后,每天获取近 2 000 万条空气污染物及气体的观测数据,其数据获取量是前期任务的 10 倍以上。按照目前的处理速度,一台计算机需要 1 200 年才能处理完 300 万景全球卫星影像。而基于云计算设施,可在 45 天内完成相同处理任务,足见重大基础设施的重要性。
真正实现科学大数据的大价值尚面临着一系列技术挑战。在数据规模、数据增速、数据类型、数据质量、数据价值等方面给科学大数据处理技术与方法提出了新的科学技术问题和方向。
以上主要体现在 5 个方面:①数据存储管理方面。科学大数据本身固有的特征亟待面向海量、非结构化或半结构化数据高效存储管理的数据库。②数据分析方法方面。数据产生和数据分析过程的分离使得数据噪声增多,问题驱动的研究方式逐渐被数据驱动的研究方式所代替。③模型和算法方面。随着半结构化、非结构化数据比重的逐渐增多,针对该类数据的特征学习方法逐渐超越并取代传统的数据模型和算法。④计算体系结构方面。新型存储器件和计算器件不断涌现,使得通用处理器和单一体系结构的单机逐渐过渡为专用处理器、多核和分布式大规模异构集群。⑤计算和服务方面。以互联网为媒介的云计算模式和分布式高性能数据中心逐渐成为大数据处理的新型模式。
中国科学院正在开展科学大数据研究的一些实践。如正在进行的中国科学院战略性先导科技专项(A类)“地球大数据科学工程”,地球大数据是一种典型的科学大数据,是具有空间属性的地球科学大数据。该专项力求突破超大规模跨域分布式资源技术瓶颈问题,有效推动地球大数据技术创新、聚合多时空数据管理与关联融合以及问题导向数据挖掘与分析,以达到只要有终端和互联网,任何人在任何地点都可以享受到地球大数据提供的多样服务,实现重大科学发现和一站式全方位宏观决策支持服务的目的。
又如基于科学大数据的国际科学计划。我们于 2016 年发起的“数字丝路”(DBAR)国际计划,就是要实现大数据汇集、大数据服务、大数据分析和大数据呈现支撑,形成“一带一路”科学大数据平台。这个为期 10 年的科学计划,将为“一带一路”可持续发展、粮食安全、生态环境保护、气候变化监测、灾害风险应对,以及文化—自然遗产保护与发展等提供科学决策。
再如基于科学大数据的研究项目。联合国设立了一项名为“全球脉动”的计划,其使命之一是用大数据应对气候挑战。2014 年,在联合国气候变化峰会召开之际,来自 46 个国家的大数据应对气候变化项目参加了奖项竞争“挑战”,最终 9 个项目获得不同的奖励。我们的“对地观测大数据应对全球变化”研究项目入选其中,显示了空间对地观测大数据在气候变化研究中的作用和价值。
科学大数据正深刻改变传统的科研模式,正驱动现代科学研究的迅猛发展。科学大数据正在为科技创新带来大机遇。作为少量依赖因果关系,而主要依靠相关性发现新知识的新模式,科学大数据已成为继经验、理论和计算模式之后的数据密集型科学范式的典型代表。