返回列表 发布新帖
查看: 9|回复: 0

陈曦等-JAMES: 面向异构算力的高性能非静力动力框架LMARSpy

332

主题

45

回帖

1325

积分

金牌会员

积分
1325
发表于 4 天前 | 查看全部 |阅读模式
全球数值天气预报正迈入千米级非静力模拟的新时代。然而,高分辨率非静力模式面临三大核心挑战:第一,模式在不连续区域中容易出现非物理振荡,影响模拟的真实性;第二,能精细刻画垂直运动的非静力模式,其时间积分步长受限于垂直CFL条件,导致计算效率受制明显;第三,随着GPU为代表的异构算力的爆发式增长,异构计算已成为高性能计算(HPC)的核心发展方向,然而气象模式对异构算力的适配不足。这些瓶颈制约着未来全球公里级模式的发展。

针对上述难题,中国科学院大气物理研究所地球系统数值模拟与应用全国重点实验室陈曦研究员团队自主研发了高性能动力框架 LMARSpy。该动力框架采用A网格来储存变量,使用专为大气定制的低马赫数黎曼求解器(LMARS)求解可压缩欧拉方程组,兼具高精度与高稳定性。该框架从算法层面专为GPU优化,是一个面向异构计算架构的非静力动力核心,集成了梯度保持的单调性限制器与具有守恒特性的垂直隐式求解器。

为抑制不连续区域的数值振荡,该研究开发了能在不连续区域保持高梯度的单调性限制器(图1)。另外,为突破非静力模式时间步长瓶颈,该研究开发了解除垂直CFL限制的垂直隐式求解器。在垂直网格距远小于水平网格距的情况下,使用该求解器可以获得数量级的计算速度提升(图2)。

为增强异构算力的可移植性,LMARSpy采用Python语言开发,模式和并行框架代码与高性能计算后端分离,可灵活切换不同计算后端(如PyTorch等)。该设计使其同时支持跨节点MPI多CPU计算与跨节点NCCL多GPU高性能计算,兼顾通用性与扩展性。该研究还通过即时编译技术(JIT)让代码的运行速度接近机器码水平,实现异构计算机的高性能计算。另外,LMARSpy具有很强的扩展性,在跨节点并行测试中的扩展性一直保持在90%以上,能在大规模GPU集群上高效并行计算(图3)。

图1:Robert不连续热泡实验。上方为未使用限制器的结果,下方为使用限制器的结果。第1~2列为不同时刻的模拟结果,第3列为沿垂直中线的截面。

图2:Robert连续热泡实验。上方为显式方案结果,下方为使用垂直隐式求解器的结果,第1~3列为不同时刻的模拟结果。

图3:左图为将二维的Robert连续热泡实验拓展到三维的模拟结果,以此来进行大规模网格的异构计算扩展性测试。右图为在不同GPU数量下,保持每GPU工作负载不变时的单位工作负载墙时间,虚线为256个CPU核心在相同任务规模下的计算时间基准。

该研究为全球公里级非静力模式中遇到的关键问题提供了适配GPU的算法解决方案,并为构建新一代大气环流模式(GCM)以及区域模式奠定了坚实基础。同时借助其基于机器学习框架的可扩展特性,LMARSpy还能与AI大模型深度融合,为推动数值天气预报迈向智能化新时代提供强大引擎。

相关成果发表于《Journal of Advances in Modeling Earth Systems (JAMES)》,中国科学院大气物理研究所研究生张伟康为第一作者,中国科学院大气物理研究所陈曦研究员为通讯作者。研究得到国家自然科学基金(42275174,42288101)和国家重点研发计划(2022YFF0802000,2022YFF0802001,2024YFB4204800)等项目的共同资助,以及国家重大科技基础设施“地球系统数值模拟装置”(EarthLab)等单位的支持。

论文信息:Zhang, W., & Chen, X. (2025). LMARSpy: A GPU-ready nonhydrostatic dynamical core with a sharpness-preserving monotonicity limiter and a conservative vertical implicit solver. Journal of Advances in Modeling Earth Systems, 17, e2025MS005056. https://doi.org/10.1029/2025MS005056

来源: http://iap.cas.cn/gb/xwdt/kyjz/202510/t20251017_7992035.html
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

地模论坛 © 2001-2025 Discuz! Team. Powered by Discuz! W1.5 京ICP备14024088号
关灯 在本版发帖 返回顶部
快速回复 返回顶部 返回列表