海洋数据再分析现状及展望
中国网/中国发展门户网讯 海洋数据再分析(ODR),与海洋数据同化(ODA)基本同义,指一系列用于最优估计随时间变化的海洋状态的数学与计算方法。经由ODR/ODA开发的数据,称为海洋再分析数据,具有四维时空连续性、规则的格点化、更高的时空分辨率及更广的时空覆盖范围等特征。
海洋再分析技术及数据产品是海洋观测技术、海洋科学研究及海洋数值模型发展与融合的产物,又促进了后三者的发展,具有重要的应用价值,主要体现在3点。① 海洋再分析产品广泛应用于海洋科学研究,特别是动力学和热力学研究的各领域。研究对象涵盖从小时尺度到几十年年代际尺度甚至气候变化尺度的几乎所有海洋动力过程;也用于海-气-海冰系统及物理-生物地球化学耦合系统的研究,是“海洋服务体系的重要基础设施”。② 海洋再分析产品是当前方兴未艾的基于数据驱动的海洋(预报)大模型及海洋专题大模型的数据基础。例如,国内的“羲和”“琅琊”和“问海”大模型采用海洋再分析数据GLORYS12进行训练,“伏羲”大模型采用再分析数据HYCOM进行训练;另外,气象领域的“盘古”大模型,采用大气再分析数据EAR5及海洋再分析数据GLORYS12进行训练。③ 再分析和同化技术,是实现准确的海洋动力预报的前提条件之一。数据同化最初源自数值天气预报,主要用于构建大气预报所必需的初始场,随后扩展至海洋预报和预测领域,为海洋预报预测提供准确的初始场及开发海洋再分析数据。
因此,ODR/ODA已发展成了一门专门的研究领域。本文简述了ODR/ODA的主要方法及国内外针对ODR/ODA的开发,并对其未来的发展进行了展望。
数据同化方法及适用性
传统ODA方法可以视为经典最小二乘方法的推广,其基本假设为误差服从高斯分布,对海洋状态的最优估计过程(即再分析过程)通过最小化代价函数实现。不同同化方案之间对于是否求解受约束/非受约束的优化问题、同化观测信息的方式、对观测误差和模拟误差先验估计的精度等存在显著差异。从理论框架角度,可以将同化方法概括为两大类:基于滤波器与基于平滑器的同化方法(图1)。这2类方法在期望得到的再分析时间范围与数据热动力一致性程度之间做出了不同的权衡。

滤波方法通过将当前观测与模拟结果(或背景场)相结合,在每一同化时间点将分析增量直接加入数值模型,从而给出随时间演化的再分析产品。其得到的再分析(分析)时间范围较短(仅当前时刻),计算速度快,广泛应用于预报模式的初始场构建。然而,将分析增量加入模式会破坏模式的连续性及热动力学的守恒关系。尽管如此,其所得分析场在当前时刻依然与设定的模式误差和数据误差协方差保持一致,并且在实际应用中被证明是可接受的。海洋学中常用的滤波方法主要包括最优插值(OI)、三维变分同化(3D-VAR),以及各类卡尔曼滤波(KF)方法(KF,分区KF、扩展KF、集合KF或EnKF、奇异演化扩展KF及奇异演化插值KF等)。
与滤波方法不同,基于平滑器的同化方法并非在分析时刻直接修改海洋模拟状态,而是利用过去与未来一段时间的观测共同约束海洋模式,通过调整海洋模式的参数(如初始场、海洋混合系数、边界场等),使得模拟结果最优地逼近海洋观测,从而实现回溯分析。由于海洋环流的非线性特征,该类方法需要迭代计算,计算代价大。然而其解较好地遵循环流模式的动力框架,具备热动力学一致性,保证在估计期间的热量、淡水与动量守恒。因此,该类方法常用于重建海洋环流的时变结构,被称作海洋状态估计(OSE)。该类方法主要包括最优Rauch-Tung-Striebel(RTS)平滑器、集合卡尔曼平滑(EnKS)和伴随方法(adjoint method)。其中,伴随同化是四维变分(4D-VAR)同化中最为成熟的方法,其在数据准确度及数据时空连续性上比3D-VAR具有显著优势。美国的ECCO(Estimating the Ocean Circulation and Climate)系统是一个典型的大洋状态估算系统,得到广泛的推广应用。
目前,这2类方法均已发展成为成熟的技术体系,随着技术进步,两者之间的界限不断弱化,已均被用于预报/预测模式的初始化。
全球海洋数据同化的现状
当前,国内外机构开发了多套全球海洋(或海洋与地球其他系统的耦合)再分析系统,主要目标在于研究大尺度长周期的海洋和大气过程。该类系统往往覆盖月到10年的时间尺度,因此其分辨率一般较低,处于1/4°—1°之间。表1总结了现有代表性的全球ODA与OSE系统,可见它们在研究目标、同化方法、观测数据类型、约束条件、模式动力框架、数值分辨率、表层边界强迫、误差估计策略、数据准确度和同化窗口长度等方面存在显著差异。

区域高分辨率再分析产品
区域性海洋变化对社会和生态系统的影响更为直接,对数据分辨率的要求更高。国际上开发了多个区域高分辨率海洋数据再分析系统,其中,部分再分析系统与预报或预测系统结合,形成业务化系统(表2)。值得指出的是,为应对高分辨率下非线性动力过程导致的误差快速增长,研究者发展了诸如EnKF和近似伴随模型等技术,在科研上应用较多。
国内海洋数据再分析研究现状
基于国际开发的ODA/ODR/OSE技术框架,中国多个科研机构从不同角度对原先的同化技术框架进行了改进,发展了自己的全球或区域再分析系统,部分系统与预报系统结合,持续更新并对外公开发布数据(表3)。



人工智能同化
在海洋再分析中,数据同化与机器学习相融合的应用主要分为3个方向:① 深度数据同化(DDA),动力模式的输出与数据同化后的分析场用来训练“同化”模型,类似于深度学习偏差订正模型。② 用机器学习方法来表示数据同化框架,其中以4DVarNet为代表,将传统数据同化中的代价函数、优化过程参数化为一个可训练的神经网络,从而实现变分同化与深度学习的结合。③ 利用深度学习改进数据信息。Martin S A等使用扩散模型开发的GenDA能够学习再分析数据中的先验分布,通过条件后验采样完成数据同化;利用深度学习的非线性近似能力,Wang R等基于ENKF融合深度学习提出的EAKF在强耦合资料同化中能够改善跨组分的状态变量分析,改善对各组分间的误差协方差的估计。
展望:未来发展方向
ODR/ODA主要由3个基本部分组成:一个受物理约束的海洋动力模型、经过严格质量控制的观测数据,以及融合观测与模型模拟的数学方法(即同化方法)。同时,在同化过程中,需要合理地表征模型误差与观测误差;同化完成后,还需要量化状态估计的不确定性。未来ODR/ODA的发展需要从上述3个方面共同发力,重点解决以下主要技术瓶颈。
构建协同的数据获取、标准化及质量控制体系。ODA从根本上依赖于高质量观测数据。建议国内各机构加大与国际海洋观测体系及组织机构的合作(如全球气候观测系统GCOS、全球海洋观测系统GOOS及地球观测卫星委员会CEOS等),最大化利用其数据。建议国内管理部门和研究机构应协调、增进和拓展国家的观测体系:① 提升卫星数据质量,② 加大对Argo等剖面观测的投入及在不同科研机构间的协调,③ 重点针对现有观测系统中需要弥补的重要空缺(如在南北极和深海区域需要更多Argo观测),加大观测系统建设,增大对国际海洋观测的贡献。
推进4D-VAR同化及自动微分技术研发。前期业务化海洋预报的初始场多由3D-VAR等生成,现在国外越来越多业务部门运用4D-VAR同化技术构建初始场,效果较好。我国4D-VAR发展缓慢,主要原因在于缺少伴随模型代码自动生成工具。当前国内单位主要采用ROMS及基于ECCO的4D-VAR同化系统,不具有自主权,使用受较大限制。为获取更准确地初始场,应尽快解决生成伴随模型代码的开源自动微分工具。
最优观测、海洋参数优化与模型改进。研究发展针对稀疏数据的同化方法。当前我国各个机构在印度洋、南海、印太交汇区、西太平洋等布放越来越多的潜浮标,并开展了大量船载、水下滑翔机等观测,形成了大量温盐流及生地化数据,具有重要价值,应研究如何将这些多源数据合理地同化。另外,开展基于观测系统模拟试验(OSSE)、条件非线性最优扰动(CNOP)、4D-VAR伴随敏感性计算(Adjoint sensitivity)及基于EnKF滤波器的目标观测算法等,获取最优观测站位,使得有限的观测数据发挥最大同化效能。另外,现有海洋环流模式仍存在若干关键不足,包括基本方程的物理框架和数值框架误差、缺失某些物理过程、未准确表征的次网格尺度过程及其参数化的不确定性,以及模型关键参数(如混合与扩散系数)的不确定性、不准确的初始条件、侧边界条件及海气界面驱动等。为减少模型偏差,需要通过改进模型结构并基于观测优化模型参数来提升模型的物理过程表现。4D-VAR(伴随)可计算模拟-观测偏差相对于模式参数和控制变量的敏感性,从而调整这些参数,使模拟结果在统计意义上更接近观测,经过这一过程,实现了对模式参数的优化及对模式的改进。
推进多系统耦合同化。当前已经对海洋-大气和海洋-海冰的跨系统耦合同化开展了一些研究。例如,面向拉布拉多海和巴芬湾区域及北极区域的基于4D-VAR伴随方法的耦合海洋-海冰同化状态估计;面向地球系统的耦合再分析的ECMWF再分析(CERA)系统。表1中还列出了一些其他耦合系统。将来应充分利用快速扩展、但高度多样化且异质的地球系统各系统观测数据(大气、海洋、陆地、冰冻圈,以及生物地球化学与碳循环等),构建一个真正综合的地球系统再分析框架,提升对地球系统的理解及其预测能力。该框架应超越对现有估计系统的简单耦合,并采用多模态方法,才能充分挖掘观测信息并揭示耦合过程的本质。
发展AI+同化系统框架。针对传统数据同化系统存在观测数据预处理及质量控制低效、数据后处理主观性较大、同化方案对系统非线性过程敏感及模型误差等问题,发展AI+同化系统框架。利用机器学习高效地开展观测数据预处理及再分析数据后处理。同时,利用机器学习模型替代海洋模式子模块的方法已显示出较大的潜力,建议将机器学习(反向传播)与传统数据同化方法结合,探索平滑器、滤波器与机器学习的混合同化潜力。建议着眼于改进同化系统框架、理论与方法,以处理观测稀疏的非线性系统,应对海洋过程的混沌与强非线性问题及其概率特性。将来数据再分析技术的重大突破将很可能依赖于耦合数据同化与机器学习的突破性发展。
(作者:刘传玉、王凡,中国科学院海洋研究所;《中国科学院院刊》供稿)







