第五科研范式下新型科研信息化基础平台架构与关键技术
中国网/中国发展门户网讯 近年来,随着科技创新发展,人工智能(AI)技术在科学研究中得到广泛应用,引发“智能化科研”(AI4R)范式的变革热潮,即第五科研范式。集网络、数据与计算于一体的科研信息化基础平台在科技创新活动中持续影响着世界科技格局。世界各国十分重视科研信息化基础平台的建设,将发展面向新科研范式的新型科研信息化基础平台视为保持全球科技领先、提升国家竞争力的关键举措,打造出多类型科研创新要素融会贯通的科研信息化基础设施,逐渐形成融合数据、计算与模型的整体服务能力,支撑前沿科学研究与科研数字化创新。
文章从科研范式与科研信息化基础平台技术架构的概念入手,研究分析科研范式变革对科研信息化基础平台架构带来的影响,重点分析第五科研范式下新型科研信息化基础平台的技术架构及其面临的关键技术挑战,展望新型科研信息化基础平台架构的未来发展趋势。
科研信息化基础平台的内涵与价值
科研信息化基础平台内涵
科研信息化基础平台与科研范式密切相关。科研范式是常规科学所赖以运作的理论基础和实践规范,是从事某一科学的科学家群体所共同遵循的认识论和行为方式。科研信息化基础平台集网络、数据和计算于一体,不仅包括为科学研究提供支撑的网络、超级计算机、存储等硬件设施,还包括在硬件设施上部署的系统中间件、基础软件和与学科发展紧密结合的应用软件、科学数据资源等软环境。
科研信息化基础平台的意义与价值
科研信息化基础平台是科技创新的基础性、战略性平台,是现代科学研究不可或缺的基座。它是各国开展新一轮科技竞争的关键支撑,对突破关键核心技术、催生高新技术和推动国家科技创新具有重要意义和价值。欧盟提出并建设欧洲开放科学云(EOSC),将泛欧数据基础设施、欧洲网络基础设施等信息化基础设施联合起来,形成一体化的科研信息化基础平台,实现对科学数据资产的长期管理;美国科教网络Internet2的下一代信息化基础设施(NGI)计划,升级实现300多所大学、超级计算中心等科研单元的400 GB/s互联互通,支持大规模跨地域、跨学科的科研协作。
近年来,重大科学突破越来越依赖于先进的信息化技术与手段。2017年获诺贝尔物理学奖的引力波探测,科学家利用超级计算机对成百上千种可能的引力波观测数据进行模拟计算,数据与计算扮演着无可替代的作用;2021年底,谷歌公司DeepMind团队采用AlphaFold 2算法在短短18个月内成功预测出约100万物种的超2亿种蛋白质结构。2024年5月,AlphaFold 3横空出世,人类能够以前所未有的原子精度预测出几乎所有重要生物分子的结构和相互作用;“中国科技云”面向500米口径球面射电望远镜(FAST)多目标巡天快速射电暴研究需求,提供高速数据传输网络和自动化数据处理流水线,将数据传输、处理时间从15天缩短至1天,数据处理效率提升1个数量级,推进重大科研成果产出。
科研范式的转变推动科研信息化基础平台模式发生变革
科研范式是特定历史时期科学共同体进行科学研究的方式,与科技创新的内在规律要求相适应。在人类科学研究历史上,已经发生过4次科研范式的转变。第一科研范式称为“经验科学”,主要以记录和描述自然现象为特征;第二科研范式称为“理论科学”,主要通过模型或归纳法进行科学研究;第三科研范式称为“计算科学”,是指通过计算机模拟计算和仿真来解决不同学科、领域中的问题;第四科研范式称为“数据密集型科学”,是指通过对大数据进行分析研究得出相关结论。自第三科研范式开始,信息化与信息技术开始进入科研活动流程。
第三科研范式。从第三科研范式开始,冯·诺依曼体系结构的计算机出现,人们利用计算机的计算能力、基于大规模并行的计算机体系结构,通过设计算法并编制程序对复杂现象进行模拟计算和仿真,使复杂问题得以清晰地解释。在第三科研范式中,超级计算机成为分析和解决科学问题的主要平台,逐渐在科学研究中发挥重要作用,因此第三科研范式被称为“计算科学”(图1)。
第四科研范式。随着数据量的爆炸性增长,数据类型也愈发复杂,如何有效处理和利用复杂大数据,成为科研难题。为此,图灵奖得主吉姆·格雷(Jim Gray)提出基于数据密集型科学发现(data-intensive scientific discovery)的科研范式,即第四科研范式(图2)。在第四科研范式中,大数据、大算力、算法模型三者结合,以数据为中心,融合利用高速网络、强大算力算法与模型库的科研信息化基础平台在科学研究中发挥重要作用。相比于第三科研范式的超级计算机,第四科研范式的科研信息化基础平台拥有先进的计算工具和分析模型,不仅能对复杂现象进行模拟仿真,还能快速分析总结得出结论,大大降低了人力资源消耗,科研效率也得到了显著提升。
第五科研范式。随着信息技术和传感技术的快速发展,科学研究中产生的数据越来越多、形态越来越多样。在处理和应用复杂大数据过程中,第四科研范式遇到很多问题无法解决。科学家开始寻找更加有效处理大数据不确定性和复杂性等问题的新科研范式,程学旗等将其暂时称之为“第五科研范式”,李国杰将第五科研范式称为“智能化科研”。在第五科研范式中,AI全面融入科学、技术和工程研究,人机融合、机器涌现智能成为科研的组成部分,形成“人在回路”的人机结合科研模式。面向“智能化科研”范式,亟须通过融合高质量的数据、先进的算法模型和强大的计算能力,逐渐形成跨域互联、存算一体、数智融合、智能调度的新型科研信息化基础平台技术架构,实现机器涌现智能、人机物智能融合,以有效应对难解的组合爆炸问题(图3)。
新型科研信息化基础平台技术架构及面临的关键挑战
面向第五科研范式对科学研究的算法算力、网络传输能力以及数据存储与管理能力带来的巨大挑战,必然构建新型的平台技术框架,以满足科学研究发展需要。新型科研信息化基础平台的技术架构主要包括智能算力、PB级数据存储和高吞吐读写、跨域软硬件一体化调度、垂直领域大模型和面向AI的高质量数据资源。
智能算力及其面临的挑战
第四科研范式的算力主要以中央处理器(CPU)的高并行、高通量的高性能计算和云计算为特征。第五科研范式的到来和快速发展,以图形处理器(GPU)和加速卡为代表的算力在AI计算技术中将占据更为重要的位置,在融合了CPU、GPU等的算力基础设施中,GPU算力的比例预计将大大提高。或者说,第五科研范式下的智能计算将会以GPU计算且与计算软件有机融合的软硬一体为显著特征。这必然要求新型科研信息化基础平台能够满足科研全流程中的智能化发展需求,包括科学数据获取、大规模参数学习、模型思维推理等。在原创性算法、方法与理论研究方面,新型科研信息化基础平台将智能算力系统的突破,突破芯片内部、多卡和多节点等不同粒度的异构计算调度技术,促进科学研究通用大模型和领域专用模型的数据预处理、训练和推理全过程效率;极大拓展基础算子库规模与大模型训练基座算力容量,提高硬件系统对AI计算的适配能力,以支撑AI模型高效研发、调试、训练和推理等关键过程。新型科研信息化基础平台拟采用开放式和可扩展的架构,主要包含硬件算力基座、中间件系统和应用服务3部分内容(图4)。针对已有的计算资源,平台将融合多种类型的智能芯片计算资源,形成软硬件齐备的验证环境,支持团队快速开展模型验证工作。平台将重点构建可定制的AI、大数据处理和并行计算等环境,形成从多源终端需求到异构算力资源再到应用团队的全链条全生命周期的算力联合体。研究细粒度、弹性和可扩展的调度策略,以支持交互式研发、模型训练与微调、在线或离线推理等类型的计算任务,实现算力资源从时间和空间两个维度的共享。平台将形成面向多类型AI业务流水线的科学应用场景,包括数据集准备、模型构建、模型训练和模型应用等关键环节,结合大模型或领域模型的个性化需求,支撑数据传输与处理、模型训练与推理、模型与数据结果归档等研究过程的自动化,支持科学研究和技术开发,支持新科研范式创新发展。
平台硬件GPU等显卡加速部件为大模型预训练提供了必需的算力,但是由于其自身有限的显存或多级存储部件,限制了可训练模型参数量的大小。因此,如何有效估计显存大小从而避免存储空间溢出并保证计算正常运行具有重要意义。在大模型显存估算方面,以国产K100_AI为例,640张海光DCU芯片K100_AI的显存容量累计40960 GB,可有效满足7 B—70 B参数的大模型训练需求(表1),该类型智能计算卡已支持GPT-3和LLaMa等大模型的预训练。此外,计算能力需求估算也是大模型计算的重要因素。大模型训练中计算能力评估方法主要有分析和模拟两种。分析方法,是通过人工分析的技术手段获取计算需求公式,利用公式直接求出对应计算开销;模拟方法,是通过使用少量设备进行模拟训练或实际训练,在训练过程中获取具体计算开销。通过将二者结合,利用分析方法降低模拟时的资源消耗,利用模拟方法获取准确的计算性能数据,再通过混合建模,高效获取模型训练的计算量,进而提升模型计算效率和算力资源利用效率(表2)。
为更好适配大模型预训练和海量推理服务等发展需求,平台的算力规模越来越大,单卡性能和效率也越来越高。目前主流智算平台的算力规模约为半精度1 000 PF,并逐渐朝着更大规模发展;单个计算中心智能计算卡的数量规模从千卡起步,万卡集群逐渐成为主流,十万卡规模的集群正在规划或建设之中。智能计算卡的计算能力和功耗快速提升,显存容量受大规模参数如千亿、万亿甚至更大规模参数的影响,单卡显存容量虽以40 GB或80 GB为主流,但也出现了100 GB以上的产品。与超算平台的双精度算力特征不同,智算平台主要以半精度和混合精度进行计算,算力密度更高,能耗效率也更好。
PB级数据存储和高吞吐读写及其面临的挑战
近年来,我国重大科技基础设施高速发展,科学数据资源快速积累,FAST每年约产生50 PB数据,硬X射线自由电子激光在建成后每年将产生100 PB数据,海量科学数据高效存储、传输、处理对传统的数据中心技术和架构形成了新的挑战,现有科研信息化基础平台无法完全满足其应用需求。与此同时,AI正融入科学研究的各个环节,AI4R正在成为一种科研活动的新常态。传统数据中心存储系统的主要作用是数据存储及为集群中的计算节点提供共享的存储空间。然而,由于传统存储磁盘介质、接口、协议的限制,其性能仅能达到写入带宽数GB/s、延时毫秒级、IOPS几十万的水平。科学数据的数量和质量决定了AI4R整体的落地水平。大模型时代参数量从最初的百亿已增长至千亿、万亿规模,数据集也从最初的文本语料扩展到包含图片、视频数据等多种类型的训练样本,数据容量规模从TB级增长到PB级,GPT-5的训练数据量预计将达到4 PB。新的大模型配置千亿乃至万亿级别参数,一个训练节点每秒就可以处理2万张图片,每个节点需要8万IOPS。传统存储系统无法满足这样的需求,第五科研范式下,智算中心的存储系统需要达到数十PB到百PB级的容量,IOPS需要达到千万级别、延时达到亚毫秒级、总读写带宽达到数十GB/s乃至百GB/s级别。传统的TCP/IP网络存在延迟大、多次数据拷贝和复杂的协议处理等问题,为了达到高吞吐的读写性能,智算中心GPU服务器节点每块GPU卡通过200 GB/s高速RDMA接口与其他设备互联,任意一块GPU卡与其他设备的数据交换最多只有一跳,计算与存储区域之间通过800 GB/s高速交换机互联,采用RDMA及NVMe-oF技术直接将数据传入全闪存储区,减少数据复制和交换操作,实现高性能的存储设备网络数据访问和交换。存储系统通过多台配备NVMe闪存介质的分布式全闪存储节点提供同时数据存取服务的方法以满足大量计算的并发访问需求(图5)。当计算节点往存储系统上写数据时,文件将会被根据一定大小进行分片存放到多台分布式全闪存储节点上;在应用程序读取文件时,则并发地从多个分布式全闪存储节点上读取数据。由于大量的数据IO请求都被分散到多台分布式全闪存储节点上,使得所有的分布式全闪存储节点上的磁盘性能和网络带宽都可以同时得到充分利用,存储系统的聚合带宽由多台分布式全闪存储节点上的IO带宽相加而成,克服了传统存储的单一出口点所造成的性能瓶颈,一块NVMe磁盘即可提供5 GB/s顺序读写、几十万IOPS的访问性能,一台全闪存储节点读写性能可达到40 GB/s,100万IOPS,PB级的全闪存储集群即可达到总聚合读写带宽数百GB/s,聚合IOPS千万级别,从而有效保障计算系统之间、计算存储之间的超高吞吐性能、超低延时,满足大模型训练超高IO性能的要求。
跨域软硬件一体化调度及其面临的挑战
在第三和第四科研范式中,科学活动在科学数据产生、存储的位置展开,跨域数据传输的需求少。因此,科学数据以离线的方式传输,数据产生模式、传输需求稳定,传输时间需求以天为单位。面向第五科研范式的科学研究,以AI模型为中心,需要海量数据来训练通用模型或特定领域的模型,跨域数据传输是其重要特征之一。在集中式模型训练环境中,需要将广域分布存储的原始数据传输到模型训练集群,作为模型训练的输入。然而,在更为普遍的环境中,由于数据量大或者版权问题等,科学数据无法共享和集中,需通过广域分布式模型训练来协同完成模型训练任务。此时,巨量梯度数据跨域传输,数据传输呈现低熵、大突发等特征。
因此,在新科研范式中,数据、网络和算力为模型服务,而模型则在数据存储位置、网络带宽和算力资源约束的情况下,需动态划分,以实现性能和能效最优。面向科学数据大规模存储、跨域传输和高效读取等特征需求,亟须构建灵活的硬件数据平面与软件化、智能化的控制平面(图6)。为此,基于算网融合基础平台,对数据存储、底层计算、信息通信、模型训练、知识调用各模块的系统依赖关系建模,并研发全局最优数据路径与成本最优资源调度以及算网融合等关键技术,包括多云资源汇聚与共享调度技术、数据存储资源调度与共享技术等。通过计算任务的充分解耦下沉以及与传输路径、软硬件平台的智能最优映射,使得科学数据在网络高速流转的过程中可同时被高效地计算处理,以弥补网络传输与数据计算间的性能鸿沟。通过智能软硬件调度和协同,突破传统高熵(多条业务流分时尽力而为共享)网络传输通量低的瓶颈,实现面向算网协同调度的低熵网络,提升网络传输的确定性,实现能效比的指数级提升。
具体来说,在算网一体的跨域计算场景中,各计算中心配备了异构的算力集群配置(如GPU和国产算力芯片等),通过广域网连接实现资源互通。然而,远距离的地理限制导致广域网上的可用带宽不足和波动问题,增加了跨域并行调度的复杂性。如何有效整合这些分布式计算资源,以实现高性能的跨域分布式并行,是推动算力共享和多方协作的核心问题。可以从3个层面解决该问题。在应用层,针对多种智算任务进行智能任务拆分和自动并行。基于模型特性、数据分布和网络状况,生成高效模型划分和并行策略,优化各算力中心的计算与传输负载。例如,GPT-3 175 B模型在混合精度训练中,采用数据并行方式时需要传输约350 GB的梯度;若改用流水线并行,仅需传输中间激活值,从而将传输量降低至30%以下(批次大小为2 048),可在数据中心间的100 GB/s网络带宽下满足传输需求。在流量调度层,可通过流量工程技术结合低熵业务流量特性,优化计算中心间的数据传输路径,以满足周期性的突发流量需求并有效减少传输延迟。同时,底层网络状态可实时反馈至智能决策系统,使其在网络状况发生变化时,灵活调整上层模型的分配策略,从而实现算网资源和任务需求的高效匹配,提升任务执行效率和资源利用率。在底层传输中,根据AI流量特性可进一步优化数据传输策略,例如通过梯度量化和稀疏化技术降低数据量,并设计基于梯度贡献度的差异化传输协议,通过多路、端网、跨层的协同数据传输协议,满足低时延梯度数据传输需求。
垂直领域大模型及其面临的挑战
垂直领域大模型是指用于解决特定领域科研问题的、参数量较大的AI模型。如用于解决蛋白质结构预测问题的AlphaFold 2模型、用于解决短临降水预报问题的NowCastNet模型。垂直领域大模型具有两个明显区别于通用大模型和传统领域模型的特征——定域性和端到端。相较于通用大模型,垂直领域大模型一般具有显著的定域性。垂直领域大模型专注于解决特定科研问题,而非追求通用人工智能(AGI)能力。这种定域性可以显著降低模型参数量、训练数据集规模和训练算力需求。如AlphaFold 2参数量仅为0.93亿,训练数据集大小约3 TB,使用单张NVDIA A100显卡即可训练。相较于传统基于数值分析的领域模型,垂直领域大模型具有显著的端到端特性。这些大模型基于特别设计的类Transformer架构进行端到端训练(而非传统领域模型多阶段的数值函数拟合),通过单个人工神经网络模型直接从训练数据中拟合出特定研究对象之间的相关性,可以有效避免多阶段数值函数拟合导致的误差累积问题。例如,AlphaFold 3直接拟合了PDB数据库中的一维氨基酸序列、小分子化合物到蛋白质三维结构及其配体结构的对应关系。又如NowCastNet直接拟合了气象雷达数据中云观测值与降水量之间的对应关系,与传统基于数值计算的降水预测方法相比,预测效率和准确性大幅提升且运算开销大幅降低。
高水平垂直领域大模型离不开高质量的带标注领域训练数据集(如用于AlphaFold训练的PDB数据库),以及根据领域问题专门设计的人工神经网络结构(AlphaFold 2的Evoformer),其对算力的需求反而要小于通用大模型。因此,构建垂直领域大模型的主要挑战在于:如何针对科研任务的特点设计精巧的神经网络结构并找到足够多的、带标注的高质量训练数据集。其中,对科研领域训练数据进行标注,往往不是简单地为原始数据赋上文本标签,有时还需要借助专用仪器设备进行。例如,PDB数据库中的蛋白质原子坐标可以被视作是其对应的一维氨基酸残基序列的标注信息,但需借助冷冻电镜(cryo-EM)测出。
当然,通用大模型也可应用于科研领域,如采用富含领域知识的文本知识库对通用大语言模型进行微调,使其具备回答特定领域问题的能力。另一种很有发展潜力的大模型赋能科研应用的方法是:基于流行的RAG(检索—增强—生成)范式,进行问答式科学数据分析。这种基于“通用大模型+RAG”的智能化科研应用可实现复杂科学数据分析流程的自动生成和调校,并可在工作流编排框架(如BigFlow)的支持下进一步实现对分析流程所涉及的网络、计算、模型(含垂直领域大模型)及数据资源的自动化匹配调度,从而最终完成复杂科学数据分析任务的全程自动化在线运行。其优势在于,大幅降低了对领域科学家的编程技术要求,同时也减少了人工介入的必要性。这种方法,同样依赖专业性强的领域文本知识库(如领域概念体系、数据分析流程),用于弥补通用大模型在特定领域问题上的知识欠缺。
综上所述,新型科研信息化基础平台应同时提供3类资源:带标注领域训练数据集、领域模型结构和一定规模的算力,可用于垂直领域大模型的训练和推理。大规模训练语料和大规模算力,可用于通用基础大模型的训练和推理。领域文本知识库和工作流编排框架,用于支撑对通用大模型进行领域微调以及基于“通用大模型+RAG”的智能化科研应用。新型科研信息化基础平台在垂直领域大模型及智能化科研应用方面的技术架构如图7所示。
面向AI的高质量数据资源及其面临的挑战
高质量的科学数据是自然规律的真实体现,高质量的AI-Ready数据集是让AI系统能够理解、处理、发现科学新原理、新规律的基础。相比于目前主要通用AI模型所使用的互联网文本、语音、图像等数据,AI-Ready科学数据模态更加多样、价值密度更高、对真实世界的描述更加充分,对科技创新乃至国民经济各个行业的智能化发展都具有重要的支撑作用。AI科学应用对科学数据治理提出新的要求。对于AI-Ready科学数据的治理,除传统的面向领域科学研究的数据质控以及大数据治理关注的一致性、准确性等因素外,还需要强化其数据的均衡性、可用性与机器可理解性,及面向具体场景的适配性、相关性,以及伦理、安全等合规性因素。面对算法模型的应用需求,现有科学数据集往往面临资源分散、知识化水平不高、标准不一、共享不充分等问题,必然要完善科学数据多渠道汇聚和整合高质量科学数据资源,提升科学数据规范整编、可信流转、关联化组织与知识化融合的水平,形成知识嵌入、模型融合、智能调度和流转供给的高质量AI-Ready科学数据供给能力,建设一批高价值、高可靠、高影响力的科学数据库,为智能化科研范式提供高质量数据供给。AI方法也为高质量数据资源建设带来新的机遇,扩展数据生产的传统方式。现有科学数据大多来源于长期观测、科学实验等科学活动,高质量的科学数据往往需要长期积累,受研究条件、实验环境等因素局限,科学数据的均衡性和质量难以保证。基于物理模型的科学计算可作为科学数据产生的一种补充方式,但受计算深度和精度的限制,尚未广泛应用于科学数据生产。而随着新一轮AI技术的爆发,或可突破现有瓶颈,使得基于物理模型计算的高精度、高质量科学数据生产成为科学数据来源的重要补充。利用AI技术,辅助科学数据的选择、模拟、合成等,将以较过去更低的成本实现数据产品的快速构建,改变高质量科学数据资源格局。
小结
目前,新型科研信息化基础平台仍面临诸多问题与挑战。未来,在芯片、存储、互联等硬件技术不断提升性能的基础上,我国亟须通过融合高速宽带网络、海量存储、分析计算能力,以及基础软件、AI模型等软硬件资源,构建以新型技术架构为基础的新型科研信息化基础平台(图8),形成支撑科学数据全域分析处理的全新能力,实现科研要素的泛在、跨域、高速连接与全局智能调度,推动科学数据传输、存储、分析、计算的生存周期活动,支撑智能化科研新范式,促进AI时代的科技创新。
展望
在智能化科研范式中,科学数据是创新的“生产资料”,也是创新要素的重要引擎。新型科研信息化基础平台作为支撑新科研范式的基础设施,是创新的“生产工具”。未来,新型科研信息化基础平台技术架构在下一步发展的关键主要包括如下3个方面:构建面向新科研范式的计算、数据与网络通信模式,设计从科学研究意图抽象到平台软硬件的映射,实现平台体系结构的自演进;通过软硬件技术架构创新,实现异构计算融合的逻辑一体化存储计算,以及科学数据的精准智能发现、分析任务智能编排、可信高效调度和端到端一体化处理,实现科学数据的可发现、可访问、可互操作和可重用;打造包容并蓄、开放共享的服务平台,实现意图驱动的任务自动化编排和部署,并根据学科领域模型需求,自动组合各种计算单元、存储单元、垂直模型及科学数据,形成“人在回路”的智能会话式科研模式,为科技创新提供一体化的新型平台服务。
(作者:廖方宇、汪洋、曹荣强、张波、王华进、陈昕、王彦棡、魏鑫,中国科学院计算机网络信息中心;李振宇,中国科学院计算技术研究所;李东,国家自然科学基金委员会。《中国科学院院刊》供稿)