全球大气数据同化的多模态掩膜自编码器

Jul, 2024

全球大气数据同化的多模态掩膜自编码器

Global atmospheric data assimilation with multi-modal masked autoencoders

Thomas J. Vandal, Kate Duffy, Daniel McDuff, Yoni Nachmany, Chris Hartshorn

TL;DR地球网络是一种多模式基础模型，通过学习从卫星观测中预测全球填补气候状态的方法，以较少的时间和成本进行全球高频率数据同化和天气预报。

Abstract

Global data assimilation enables weather forecasting at all scales and provides valuable data for studying the Earth system. However, the computational demands of physics-based algorithms used in operational syst

发现论文，激发创造

DiffDA：一种用于天气尺度数据同化的扩散模型

通过精确的数据同化生成初始条件对可靠的天气预报和气候建模至关重要。我们提出了一种基于机器学习的数据同化方法DiffDA，能够使用预测状态和稀疏观测同化大气变量。通过使用预先训练的GraphCast天气预报模型作为去噪扩散模型，我们的方法实现了两阶段的条件约束，并能在没有观测的情况下将预测结果后处理为未来的预测数据。实验证明，我们的方法能够产生与0.25度分辨率观测一致的全球大气同化数据，并且与最先进的数据同化套件生成的初始条件相比，预报模型的预测提前期最多仅损失24小时，从而使该方法能够应用于真实世界的实际问题，如自回归数据同化重建分析数据集。

Jan, 2024

利用ERA5、ASOS和U-STN模型进行英国天气预报的数据同化

探究了数据驱动的机器学习模型与数据同化相结合的趋势对天气预测的增强作用，通过利用ERA5 850hPa温度数据和改进的U-STN12全球天气预报模型，针对英国的气候特点进行预测，并发现将大气数据整合到DA中显著增强了模型的准确性，然而直接同化地表温度数据倾向于减弱这种增强效果。

Jan, 2024

U-Net卡尔曼滤波器(UNetKF): 机器学习辅助集合数据同化的示例

使用U-Net技术结合集合卡尔曼滤波算法，进行数据同化实验，得出U-Net Kalman Filter方法可以与传统的3DVar、En3DVar或EnKF方法相媲美或超越其性能，并展示训练后的U-Net模型能够转移到高分辨率模型中进行实现，在小集合规模下表现出色。

Mar, 2024

Fuxi-DA:一种用于同化卫星观测数据的通用深度学习数据同化框架

该研究介绍了FuxiDA，一种用于吸收卫星观测数据的DL-based DA框架，通过吸收来自风云-4B上的先进准同步辐射成像仪（AGRI）的数据，Fuxi-DA不断减小分析误差并显著提高预测性能。此外，通过一系列单一观测实验，验证了Fuxi-DA与已建立的大气物理模型的一致性和可靠性。

Apr, 2024

CRA5：高效变分转换器在便携式全球气候和天气研究中的ERA5极端压缩

引入高效的神经编解码器VAEformer用于极端压缩气候数据，以显著降低数据存储成本，实现便携的基于人工智能的气象研究。该方法在气候数据压缩方面优于现有最先进的方法，并且经验证明其压缩后的数据对于准确的科学分析具有实用性。通过对最流行的ERA5气候数据集（226 TB）进行压缩，得到了新的数据集CRA5（0.7 TB），压缩比超过300，同时保留了其用于准确科学分析的效用。

May, 2024

VAE-Var：变分自编码增强的变分同化

VAE-Var是一种新的变分算法，利用变分自动编码器（VAE）对背景误差分布进行建模，理论推导了VAE估计下的变分成本，并提出了VAE-Var的一般公式；我们在低维混沌系统上实现了VAE-Var，并通过实验结果证明了在不同观测设置下VAE-Var始终优于传统的变分同化方法。

May, 2024

千米尺度稀疏气象站观测的生成数据同化

数据同化对于天气预报模型的初始化至关重要。最近，提出了深度生成数据同化的方法，可以在不重新训练模型的情况下使用新的输入数据，从而大大加速操作性区域天气模型中昂贵的数据同化过程。在美国中部的一个测试区域中，我们演示了在真实复杂的千米尺度天气情境中基于得分的数据同化的可行性。我们训练了一个无条件扩散模型来生成最先进的千米尺度分析产品“高分辨率快速更新”的快照。然后，利用基于得分的数据同化方法将稀疏的气象站数据融合进模型，模型生成了降水和地面风向的地图。生成的场景显示出物理上合理的结构，如阵风，敏感性测试通过多变量关系验证了学习到的物理规律。初步的技巧分析表明，这种方法已经优于高分辨率快速更新系统本身的天真基准。通过融合来自40个气象站的观测数据，对于剩余的站点达到了10%的较低根均方差。尽管存在一些局限性，如集合数据同化估计欠精确，但总体上结果令人鼓舞，并且是千米尺度上的首次概念验证。现在是一个时机成熟的时候，可以探索将日益雄心勃勃的区域状态生成器与越来越多的现场、地面和卫星遥感数据流结合起来的扩展方法。

Jun, 2024

大气状态的神经压缩

通过使用神经网络文献中的方法，将球面数据适应传统神经网络结构，采用面积保持HEALPix投影，我们提出了一种压缩大气状态的方法，展示了超过1000x的压缩比，并以每秒全球大气状态的速率进行压缩和解压缩。

Jul, 2024

一个可扩展的实时数据同化框架用于预测湍流大气动力学

通过引入一个通用的实时数据同化框架，我们在强大的性能计算系统Frontier上展示了框架的杰出可扩展性，以及超级计算机在天气和气候预测中的重要性。尽管该框架仅在基准面积准地转动(SQG)湍流系统上进行了测试，但它有潜力与现有的基于人工智能的基础模型结合，适用于未来的实际实施。

Jul, 2024

数据驱动天气数据同化基准数据集 DABench

本研究解决了数据驱动天气数据同化模型缺乏标准基准的问题，提出了DABench基准数据集，利用ERA5数据作为真实值，旨在推动端到端数据驱动天气预测系统的发展。研究结果表明，基于DABench的DA Transformer模型在物理状态重构方面超越了现有最先进技术，为天气预测模型的开发与评估提供了强有力的支持。

Aug, 2024