MODS: 多源观测条件扩散模型用于气象状态降尺度 MODS: MULTI-SOURCE OBSERVATIONS CONDITIONAL DIFFUSION MODEL FOR METEOROLOGICAL STATE DOWNSCALING Siwei Tu, Jingyi Xu, Weidong Yang, Lei Bai, Ben Fei
(一)研究背景
在全球气候变化研究与天气预报领域,获取高分辨率的近地表气象条件数据极为关键。目前,欧洲中期天气预报中心(ECMWF)发布的第五代全球气候再分析数据集(ERA5)提供了丰富的气象数据,但其空间分辨率约 27.75 km,难以精准反映局部地区气象状况。传统物理降尺度算法虽能提升分辨率,但计算资源需求大,且在数据同化过程中会丢弃大量观测数据,限制了观测数据的多样性。近年来,人工智能(AI)模型在降尺度方法中表现出比传统物理方法更优的性能,在空间细节分辨率和准确性方面均有显著提升。然而,现有基于 AI 的降尺度方法多关注图像本身,通过复杂网络架构学习不同分辨率图像间关系,却忽略了 ERA5 数据与卫星观测间的耦合关系,导致生成的高分辨率 ERA5 图像难以契合真实大气气象条件。
(二)研究意义
本研究提出的多源观测降尺度模型(MODS)旨在解决现有气象数据降尺度方法中存在的问题,充分利用多源卫星观测数据与地形数据,通过条件扩散模型实现 ERA5 数据的高精度降尺度,提高天气预报的准确性和精细化水平,为全球气候变化研究提供更可靠的高分辨率气象数据支持,对于提升气象灾害预警能力和气候变化适应策略制定具有重要意义。
(三)研究方法
1. 多源观测数据融合 :MODS 条件扩散模型融合了多种数据来源,包括地球静止卫星(GridSat)、极轨卫星(AMSU - A、HIRS 和 MHS)以及地形数据(GEBCO),将这些数据作为条件输入模型。通过预训练的编码器对每种数据分别提取潜在特征,再利用多源交叉注意力模块将特征融合到 ERA5 地图中。其中,交叉注意力模块通过特定的权重矩阵和 softmax 操作实现特征融合,使模型能够充分关注各条件数据并根据不同相关性进行加权融合。
2. 预训练编码器 :在 MODS 的多源条件数据融合前,对每个条件数据进行预训练,使用基于变分自编码器(VAE)的结构提取卫星观测和地形图中各变量的潜在嵌入特征。预训练编码器包含卷积层、下采样块和输出块,通过均方误差损失函数进行训练,以实现对原始条件图的有效特征提取和重建。
3. 多引导采样 :在模型采样过程中,利用低分辨率 ERA5 地图和站点级气象数据作为引导,动态控制生成过程。通过引入可优化参数的卷积核模拟分辨率转换过程,确保生成的高分辨率 ERA5 地图在上采样后与对应的低分辨率地图相匹配,并利用站点观测数据实时评估生成图像中各气象站的气象数据差异,从而指导扩散模型的生成过程,提高降尺度结果的质量。
(四)实验数据
1. ERA5 数据 :作为欧洲中期天气预报中心发布的全球气候再分析数据集,提供了包括 10 米处的经向和纬向风速分量(U10、V10)、2 米处气温(T2m)以及海平面气压(MSL)等变量的气象数据,空间分辨率为 0.25°。
2. 多源观测数据 :包括 GridSat 卫星观测数据、HIRS(高分辨率红外辐射探测仪)数据、MHS(微波湿度探测仪)数据、AMSU - A(先进微波探测单元 - A)数据以及 GEBCO(全球海洋浴量图)地形数据。这些数据来源各异,分别提供了云顶温度、辐射、大气垂直温度廓线、水汽分布以及全球数字高程模型等信息,用于作为 MODS 的条件输入进行特征提取和融合。
(五)研究结果
1. 与现有方法对比 :MODS 在 U10、V10、T2m 和 MSL 等气象变量的所有评估指标上均优于现有的多种降尺度方法,包括基于插值的方法(如双线性插值、双三次插值)、基于扩散模型的方法以及其他超分辨率或降尺度方法。与仅使用单源 GridSat 卫星观测数据作为条件的 SGD 方法相比,MODS 在各项指标上也有显著提升,特别是在 T2m(温度数据)指标上,验证了多源观测数据作为条件能够有效增强模型对温度气象变量的准确生成能力。
2. 不同条件数据影响 :定量比较结果显示,多源条件数据的引入对 T2M 和 MSL 变量的影响较大。其中,GEO 数据(地球静止卫星观测数据)对结果的提升效果最为显著,因为 GridSat 的亮度温度数据是影响大气状态的关键因素;PO 数据(极轨卫星数据)也对结果有较为明显的影响,表明水汽含量等变量对温度变量 T2M 和气压变量 MSL 均有影响;而地形数据(TOPO)虽影响相对较小,但对降尺度结果仍有一定贡献。
3. 消融实验 :消融实验结果进一步验证了 MODS 中多源数据设置的有效性。仅使用部分多源数据作为条件时,MODS 的降尺度结果与真实气象条件存在差距;而使用全部多源数据(GEO、PO 和 TOPO)作为条件时,MODS 能够生成更贴近真实情况的高质量高分辨率 ERA5 地图。此外,在采样过程中,采用多引导采样(结合低分辨率 ERA5 地图和站点观测数据)相较于仅使用单一引导数据,能使 MODS 生成更符合实际气象场景的高分辨率 ERA5 地图。
(六)结论与不足
1. 结论 :MODS 作为一种基于多源条件扩散模型的 ERA5 数据降尺度模型,通过整合多种极轨卫星数据、地球静止卫星数据和地形数据作为多源条件,利用预训练编码器和交叉注意力结构对多源数据特征进行提取与融合,并在采样过程中采用多引导采样策略,能够生成具有逼真细节和更符合实际气象状况的高质量高分辨率 ERA5 地图,有效提升了气象数据降尺度的精度和质量,为天气预报和气候研究提供了更可靠的数据支持。
2. 不足 :MODS 所使用的条件数据中缺乏对风速这一重要变量的直接观测数据(如 ASCAT 卫星数据),这可能限制了其在估算与风速相关变量(如 U10 和 V10)方面的性能提升。
(七)讨论
本研究的讨论部分主要围绕 MODS 模型的设计、数据选择、方法应用以及实验结果等方面展开。首先,强调了多源观测数据在气象数据降尺度中的重要作用,指出不同卫星观测数据和地形数据能够从多个维度补充大气状态信息,弥补单一数据源的不足,从而更全面地刻画大气物理过程,提高降尺度结果的准确性。其次,探讨了预训练编码器和交叉注意力模块在特征提取与融合中的优势,认为这种结构能够有效挖掘各数据源之间的潜在关联,增强模型对复杂气象现象的理解和建模能力。此外,还对多引导采样策略进行了分析,说明其在平衡生成结果细节保留与实际气象状态差异控制方面的有效性,以及如何根据不同需求灵活调整引导数据权重以实现多样化生成任务。同时,针对实验结果,进一步分析了 MODS 在不同气象变量和条件数据下的表现,验证了模型的鲁棒性和适应性,并与其他方法进行详细对比,突出了 MODS 的优越性和创新性。
(八)未来工作
未来的工作将重点关注以下几个方面:一是拓展 MODS 的数据来源,整合更多与风速等关键气象变量直接相关的卫星观测数据,如 ASCAT 数据,以进一步提升模型在估算风速相关变量方面的性能;二是优化模型结构和参数设置,探索更高效的特征提取、融合和生成方法,提高模型的计算效率和资源利用率,使其能够处理更大规模的数据集和更复杂的气象场景;三是加强对模型的可解释性研究,深入分析模型在降尺度过程中对不同数据源和气象变量的响应机制,为气象学家提供更直观、更有价值的决策支持信息;四是将 MODS 模型应用于更广泛的气象业务领域,如天气预报模式的初始化、气候模式的降尺度模拟等,验证其在实际应用中的效果和价值,并根据反馈不断改进和优化模型。
以上是对文章的详细解读,如有不当之处欢迎批评指出!也可以私信小编(Earth_Ai)。
图略,参见 https://arxiv.org/pdf/2506.14798
来源:“EarthAi”公众号
https://mp.weixin.qq.com/s/3DlOD9RLfe1IV0b06ReyTw
|