科学大数据智能分析软件的现状与趋势

发布时间:2018-09-07 11:51:22  |  来源:中国网·中国发展门户网  |  作者:钟华 刘杰 王伟  |  责任编辑:赵斌宇
关键词:科学大数据,智能分析,数据密集型科学发现,软件系统

领域专用型科学大数据智能分析软件

自然科学包括大量细分领域,每个领域都存在专用的科学数据分析软件,本文选取其中若干代表进行分析,并将这些软件分为两类进行介绍:经典的领域专用科学数据分析软件和新兴的领域专用科学数据分析软件。

经典的领域专用科学数据分析软件。这类软件是特定领域科学家专门研发的系统,适合对该领域的科学数据进行专门处理、计算和分析。ROOT是欧洲核子研究中心(CERN)开发的开源软件,主要用于粒子物理实验的数据处理、科学计算和可视化分析,提供数学及统计工具、并行处理、神经网络及多变量分析软件包,是目前高能物理领域数据分析的典型工具。AstroML 是面向天文领域的机器学习和数据挖掘算法包,建立在NumPy、SciPy、Scikit-Learn 等 Python 算法库基础上,提供了多个开放天文数据集的加载器,以及大量天文领域的分析与可视化数据集案例。目前,这类领域专用软件仍采用单机部署,无法进行分布式并行的大数据处理分析,并且尚未对深度学习技术提供集成与支持。

新兴的领域专用科学数据分析软件。这类软件指采用了大数据、机器学习和云计算等新技术的分析软件。SDAP 目前是 Apache 软件基金会的孵化项目,是面向地球物理海洋学领域的科学大数据分析平台。SDAP依赖于 NEXUS 系统进行大数据处理,NEXUS 是由美国国家航空航天局喷气推进实验室(NASA/JPL)开发的一个软件项目,采用 Map/Reduce 分布式并行计算技术,旨在对 NASA 各种任务收集的大型数据集进行科学分析。美国国家能源研究科学计算中心(NERSC),具有美国能源部科学局的主要科学计算设备。最近 NERSC 支持将深度学习应用到气候研究、中微子实验以及神经科学研究,并取得了一批突破性科学发现。Verily Life Sciences(原谷歌生命科学公司)的研究人员开发了一种深入学习软件工具 DeepVariant,该工具可将基因组信息转换成图像进行分析,可显著提升基因变异的识别准确率。Google Earth Engine 是 Google 提供的对大量全球尺度地球科学资料(尤其是卫星数据)进行在线可视化分析处理的云平台,相关领域的科学家团队可以利用该平台提供的长时序近地卫星数据以及数千台的云服务器进行在线数据处理和分析,目前已经取得了一批有显示度的研究成果。可以看出,Google Earth Engine 的特定领域海量数据、云端分布式并行计算、在线挖据分析算法库、地图即时展现等特点,正代表了新兴科学大数据智能分析软件的发展趋势。

<  1  2  3  4  5  >  


返回顶部