大语言模型(LLMs)的快速发展,尤其是在推理能力上的突破,为应对大气科学中的复杂挑战、推动科学发现带来了变革性潜力。然而,要在这一领域有效发挥LLM的作用,需要一个健全且全面的评测基准。为此,香港科技大学潘乐陶气候变化与可持续发展研究中心主任陆萌茜教授团队联合计算机科学及工程学系袁彬航教授团队提出了全新的评测框架ATMOSSCI-BENCH,旨在系统性地评估LLM在大气科学五大核心问题类别上的表现:水文学、大气动力学、大气物理学、地球物理学和物理海洋学。该成果近期已正式被国际顶级机器学习会议NeurIPS 2025接收,题为《ATMOSSCI-BENCH:评估大语言模型在大气科学中的最新进展》(ATMOSSCI-BENCH: Evaluating the Recent Advances of Large Language Models for Atmospheric Science)。