|
科学大数据智能分析软件参考方案
笔者所在团队近年来完成了多个科学、行业领域的大数据系统研发,目前正在承担中国科学院战略性先导科技专项“地球大数据科学工程”的地球大数据挖掘分析系统(Big Earth Data Miner)研发任务。通过对多个领域科学家团队的大数据分析需求进行调研,结合现状及趋势分析,笔者提出下一代科学大数据智能分析软件的参考方案(图1)。
该软件系统基于云平台部署,采用通用大数据系统和机器学习系统作为底层计算支撑;在此基础上,提供满足领域特性需求的科学大数据分布式计算处理引擎和机器学习引擎,支持科学大数据分析处理的特殊过程。同时,挖掘分析任务具有数据密集型与资源密集型相结合的特征,也存在即时分析、在线分析以及离线分析等差异明显的服务响应需求,因此需要探索提供高效的资源管理和任务调度机制,以满足大规模并发用户的差异化支撑需求。
数据资源库提供公共数据资源和个人数据资源管理,支持用户在数据资源库方便快捷地查找、导入个人数据资源,并进行数据共享。算法与模型库提供通用算法及模型、领域算法及模型管理,支持算法和模型的二次开发、共享与性能优化。其中,针对基于大数据训练得到的模型,可探索采用迁移学习等技术实现跨领域共享。
智能分析环境提供多种智能分析模式。其中,工作流模式主要面向领域内相对固化的分析场景;代码开发模式主要面向具有研发能力和灵活分析需求的科学家团队;可视交互式分析模式主要面向依赖可视化观察分析的应用场景。未来还可以扩展到虚拟现实、增强现实等更多的分析模式。
该软件系统通过浏览器提供在线的挖掘分析服务,用户通过注册账户就可开展一站式的分析工作,在此过程中云服务需要确保科学家数据安全和用户分析工作的隔离。此外,需要探索利用微服务架构,实现面向不同科学领域需求的领域化定制。
科学技术是第一生产力,而科学大数据的智能分析软件则是科学研究的重要支撑工具。国内科学家团队在很多细分领域都取得了世界瞩目的成果,但是并没有发布具有世界影响力的开放的智能分析软件。因此,迫切需要国内科学家团队与信息技术研究团队联合起来,瞄准交叉领域的科学探索与知识发现,充分考虑不同领域科学家团队的大数据分析需求,设计研发出更适用于科学大数据的智能分析软件系统,为人类科技进步贡献力量。(作者:钟华 刘杰 王伟 中国科学院软件研究所北京。《中国科学院院刊》供稿)