|
中国网/中国发展门户网讯 2007 年图灵奖得主吉姆 · 格雷(Jim Gray)发表了著名演讲《科学方法的革命》,将科学研究分为 4 类范式(paradigm),即实验归纳、模型推演、仿真模拟和数据密集型科学发现(data-intensive scientific discovery),从而提出了被广泛称为“第四范式”的“科学大数据”新视角。经过10年的技术发展,深度学习等先进技术在图像、语音、自然语言等人工智能领域均取得突破进展。在自然科学领域,近年来科学家们也紧跟趋势,基于科学大数据驱动的新模式,采用深度学习等新技术,取得了一批重大科学发现成果,发表在 Science、Nature等权威学术刊物。然而,大数据驱动的科学研究工作因为严重依赖于先进的信息技术,对于大多数科学家团队而言仍具有一定门槛。
多学科、跨领域交叉背景下的科学大数据挖掘分析与知识发现,依赖于构建一套高效、易用、可扩展的科学大数据智能分析软件系统,为复杂数据处理、分析、模式提取和知识发现提供学习模型、算法及开发工具支持。通过分析该领域发展现状,我们发现,一些分析软件因为运行在单机环境而无法处理大规模数据,一些分析软件因需要较高的编程开发技能而令科学家团队望而却步。随着云计算、大数据和人工智能技术的发展,利用云计算平台承载人工智能技术进行大数据智能分析已经成为趋势,而开放共享与个性化定制也成为软件发展的主流方向。从中可以总结出科学大数据智能分析软件的五大发展趋势:AI 赋能、一体化、云服务、开放共享和可定制。
笔者通过对众多科学家进行需求调研,结合大数据智能分析技术及软件的发展趋势,提出了一个面向科学大数据的一体化、可定制的智能分析框架,支持科学家交互式的构建智能分析模型,并基于云平台分布式计算引擎实现分析模型的高效执行,为快速开展科学发现研究提供系统和工具支撑。期望通过该智能分析框架的研发与应用,为下一代科学大数据智能分析软件提供参考方案。