科学大数据——国家大数据战略的基石

发布时间:2018-09-07 11:50:40  |  来源:中国网·中国发展门户网  |  作者:郭华东  |  责任编辑:赵斌宇
关键词:大数据,科学大数据,数据驱动,数据密集型科学

科学大数据的思考

随着数据积累和计算能力的提升,直接从大数据中获取知识已经成为可能。2013 年 9 月,笔者及团队提出“科学大数据”概念,并于 2014 年 1月以“科学大数据与数字地球”为题发表于《科学通报》。我们认为,科学大数据与互联网大数据、商业大数据等存在本质属性和特点上的区别,具有自己独特的科学内涵和特点。

整体看来,科学大数据具有如下外部特征:从数据内容来讲,科学大数据一般表征自然客观对象和变化过程;从数据体量来讲,科学大数据在不同学科中存在较大的差异;从数据增长速率来讲,科学大数据依学科不同其数据增长速率也变化较大;从数据获取手段来讲,科学大数据一般来自观测和实验的记录以及后续加工;从数据分析手段来讲,科学大数据的知识发现一般需要借助科学原理模型。

通过归纳科学大数据的外部特征,其内部特征也变得相对清晰,主要概括为:数据内容的不可重复性。正如哲学家赫拉克利特的名言“人不能两次踏进同一条河流”,对于一般自然与物理的客观过程的观测具有一定的不可重复性。数据的高度不确定性。由于采用的直接或非直接观测方式、采样手段和记录技术,往往引入系统观测误差及数据记录误差。数据的高维特性。由于观测对象和采样方法本身的时间、空间属性以及观测传感器的多通道特征,科学大数据往往具有时空连续性和谱段多维性,导致维数灾难。数据分析的高度计算复杂性。数据的高度不确定性、高维特性,以及与科学数据分析相伴随的原理模型的复杂性,导致了科学数据处理分析的计算复杂性。总之,科学大数据具有不同于一般大数据的特征,其内在机理及如何应用于知识发现需深入研究。

2014 年 6 月,在我们的倡议和主持下,“国际科学计划大数据研讨会:挑战与机遇”在北京召开。该会议由国际科学和技术数据委员会(CODATA)主办,7 个国际组织共同主办。会议发表的声明强调科学研究要加强对大数据的理解,通过发展与大数据有关的研究、政策和框架来强化国际大数据科学合作,促进社会发展。尽管这在当时只是一个起点,但这份声明是人们关注大数据潜力迈出的实质性一步。声明要点包括:响应大数据对国际科学计划的重要性;开发大数据为社会服务的潜力;通过国际合作来增进对大数据的理解;通过全球研究基础设施促进大数据的普及;探索和应对大数据管理工作带来的挑战;鼓励大数据科学能力建设;促进政策制定,最大限度地利用大数据。

自那时起,我们主办或共同主办了一系列关于科学大数据的会议,其中包括“科学大数据前沿香山科学会议”“中国科学院学部空间地球大数据科学与技术前沿论坛”“自然科学与人文科学大数据前沿探索圆桌会议”“地球大数据香山科学会议”等。有关部门和单位相续组织召开了不同的与科学大数据有关的会议,进行深入研讨。

特别重要的是,在中国科学院的组织下,我们提出发展“科学大数据”的建议,上报后受到政府的重视。2015 年《国务院关于印发促进大数据发展行动纲要的通知》中把科学大数据作为纲要的一部分,提出“发展科学大数据:积极推动由国家公共财政支持的公益性科研活动获取和产生的科学数据逐步开放共享,构建科学大数据国家重大基础设施,实现对国家重要科技数据的权威汇集、长期保存、集成管理和全面共享。面向经济社会发展需求,发展科学大数据应用服务中心,支持解决经济社会发展和国家安全重大问题”。

科学大数据是国家大数据战略的有机组成,这使得深入开展科学大数据的研究具备了良好的政策支撑和理论基础。科学大数据是国家大数据战略的基石,科技界和科学家肩负重大的使命——推进科学大数据的全面系统发展。

<  1  2  3  4  >  


返回顶部