设为首页
收藏本站
切换到窄版
地模论坛
BBS
登录
立即注册
地模论坛
»
地模论坛
›
高性能计算相关
›
高性能计算
›
对话付昊桓:数值模拟不能被替代,AI 应该放在哪里丨GAI ...
返回列表
发布新帖
查看:
306
|
回复:
7
对话付昊桓:数值模拟不能被替代,AI 应该放在哪里丨GAIR 2025
atmos85
atmos85
当前离线
积分
355
61
主题
39
回帖
355
积分
中级会员
中级会员, 积分 355, 距离下一级还需 145 积分
中级会员, 积分 355, 距离下一级还需 145 积分
积分
355
发消息
发表于 2025-12-25 14:48:11
|
查看全部
|
阅读模式
https://mp.weixin.qq.com/s/HIedYJaXhY3loI95eK3PTg
原创 郑佳美 AI科技评论 2025年12月22日
地球系统预测涉及多尺度计算,现行方法以数值模型为核心。
作者丨郑佳美
编辑丨岑峰
过去很长一段时间里,气候、天气和地球系统研究,几乎完全建立在数值模拟之上。超算负责把物理方程一层层算下去,模型的精度、分辨率和稳定性,决定了人类对自然系统能“看清”多少。
而近几年,随着算力条件的变化,人工智能开始被不断引入这些传统领域。尤其是在气候和地球系统建模中,AI 被寄予厚望:它是否能补足数值模型难以覆盖的细节?是否能在有限算力下,把系统看得更细一点?这些问题,正在成为超算与科学计算领域绕不开的讨论。
地球系统模型正是其中最具代表性的场景之一。
从全球环流到局地天气,从海洋到大气,从公里尺度到更细微的变化,模型需要处理的过程极其复杂,也几乎不可能被完全穷尽。正因为如此,关于 AI 应该如何进入地球系统建模,学界和工程界始终保持着谨慎甚至分歧的态度。
在 GAIR 2025 大会上,围绕人工智能与科学计算的关系,相关讨论再次被集中提及。付昊桓教授在大会期间做了相关分享,结合地球系统模型与超算实践,讨论了数值模拟与 AI 之间的边界与可能性。
作为清华大学深圳国际研究生院教授、国家超级计算深圳中心副主任,他长期同时参与超算平台建设和地学计算研究,也因此更关注这些方法在现实体系中“能不能用、该怎么用”。
在GAIR 2025 现场,AI科技评论与付昊桓教授围绕数值计算与AI 的融合、地球系统模型的复杂性,以及AI 在预报体系中的真实位置进行了深入交流,相关内容AI 科技评论做了不改变原意的编辑整理:
01 从地球系统说起
AI 科技评论
:您现在在超算这边,最核心想做的事情到底是什么?
付昊桓
:其实如果从一个比较抽象的层面来总结,我们现在最核心想推动的一件事,就是
数值计算和人工智能的深度融合
。
地球系统只是一个比较典型、也比较容易被大家理解的例子,但并不是唯一的应用场景。类似的问题,其实在很多科学计算领域都会遇到,比如机器人、生物医药、材料科学等等。只不过地球系统的复杂性、尺度跨度和社会影响都非常突出,所以它经常被拿出来讨论。
我们并不是说要单独把 AI 拿出来做一个“更聪明的模型”,也不是简单地去提升某一个模型的精度,而是希望从根本上去思考:在科学计算这样一个长期以数值模拟为核心的方法体系中,AI 到底应该以什么样的方式介入,才能真正提升我们理解和预测复杂系统的能力。
AI 科技评论
:
那为什么地球系统会被您反复作为一个核心例子?
付昊桓
:因为地球系统本身,几乎把科学计算中最难的几个问题都集中在了一起。首先,它是一个典型的
混沌系统
。我们常说的蝴蝶效应,本质上讲的是系统对初始条件的高度敏感性。哪怕是一个非常微小的扰动,在经过足够长的时间和足够复杂的相互作用之后,都可能对整体状态产生显著影响。
其次,它是一个极端多尺度的系统。比如说,台风这种现象,可能发生在数百公里到千公里的尺度上;而强对流降水则发生在公里尺度;龙卷风则是十米到百米尺度;再往下,还有更微观的过程,发生在米级甚至更小的尺度上。
更重要的是,这些不同尺度的过程,并不是彼此独立的,而是相互耦合、彼此影响的。你不能只算大尺度而忽略小尺度,也不能只盯着局部而不看整体。正是这种“所有尺度连在一起”的特性,使得地球系统成为一个非常典型、但也极其困难的研究对象。
AI 科技评论
:那在这种情况下,有没有可能去做一个真正意义上的数字孪生?
付昊桓
:从现实角度来看,这是基本不可能的。很多人会设想,未来算力如果足够强,是不是就可以把所有细节都模拟出来。但实际上,问题并不只是算力的问题,而是尺度本身是没有下限的。
你可以说,未来是不是可以模拟一只蝴蝶?那我会反问:树叶里的水分是怎么蒸发的?云中的水汽是如何凝结成水滴的?水滴在不同微环境中是如何增长、碰并并最终下落的?
这些过程发生在越来越小的尺度上,而且每一个尺度都会引入新的物理机制。你永远不可能把所有尺度都纳入一个完全精确的数值模型中。所以从一开始,我们就必须承认:
地球系统是一个无法被完全穷尽计算的复杂系统
。
02 「骨骼」与「肌肉」
AI 科技评论
:在这种前提下,数值模拟的意义在哪里?
付昊桓
:数值模拟的意义,恰恰在于它是我们目前唯一一套
系统性地、基于物理规律去理解世界的工具
。我常用一个比喻来解释数值模拟和 AI 之间的关系:数值模拟是
骨骼
,AI 是
肌肉
。
骨骼代表的是我们已经理解得比较清楚的那部分自然规律,比如守恒定律、动力学方程、热力学关系等。这些东西是有明确物理意义的,是可解释、可追溯的。
而肌肉这一侧,指的是那些我们目前很难用严格物理模型去描述、或者算力根本支撑不了的部分。这些地方,AI 可能可以发挥更大的作用。
AI 科技评论
:能不能用一个更具体的例子来说明这种分工?
付昊桓
:比如说台风预报。当台风从海上向陆地移动时,在百米甚至公里尺度上,它的整体动力结构是可以用传统数值模型来刻画的。但当台风进入城市环境之后,问题就变得非常复杂。
你想知道某一条街道上,风会怎么走?某一个小区里,降雨会如何分布?这些已经进入了十米、甚至一米尺度,而传统数值模型在这个尺度上不仅算力不够,物理参数化本身也变得非常困难。
在这种情况下,如果完全依赖数值模拟,成本是无法承受的。但如果完全依赖 AI,又会失去物理约束。所以一个更现实、也更有前景的方向,是让 AI 在这些“肌肉层面”去补充数值模型,而不是取代它。
所以我们最终希望看到的,不是数值模型一套、AI 模型一套,而是它们能够形成一个
紧耦合的混合模型
。我经常用“齿轮”这个比喻,希望这两个齿轮能够真正咬合在一起,一起转,而不是各转各的。
回复
举报
atmos85
atmos85
当前离线
积分
355
61
主题
39
回帖
355
积分
中级会员
中级会员, 积分 355, 距离下一级还需 145 积分
中级会员, 积分 355, 距离下一级还需 145 积分
积分
355
发消息
楼主
|
发表于 2025-12-25 14:51:10
|
查看全部
(接上篇)
03 从模型到业务
AI 科技评论
:那在数据如此稀疏的情况下,AI 能发挥什么作用?
付昊桓
:AI 非常擅长做的一件事情是:
在不完整的数据条件下,给出一个合理的推断
。也就是说,你给它一些稀疏的观测点,它可以在空间和时间上进行补全,给出一个 best guess。
这种能力,在地球系统这样观测受限的领域里,确实非常有价值。但前提依然是:
它必须和数值模型结合使用
。
AI 科技评论
:那目前这些模型成果,是如何被气象部门实际采纳和使用的?
付昊桓
:现在的天气预报,本身就是一个高度工程化的混合体系。以华南地区为例,目前常用的是大约一公里分辨率的网格模型。在这个尺度上,动力方程是可以直接计算的;而网格内部无法解析的微物理过程,则通过统计参数化方案来处理。
同时,还会引入多组初始条件、多种模型配置,进行集合预报。最终给出的,并不是单一结果,而是一种带有概率意义的预报结论。在这样的体系下,目前 7 天预报是可以实现的,其中 3 到 5 天相对比较可靠。
AI 科技评论
:AI 的引入,在这个体系中具体带来了哪些变化?
付昊桓
:从目前的测试结果来看,AI 确实在一些方面带来了提升。比如,它可以利用更多类型的数据,提升某些变量的预报精度;在部分场景下,也确实可以延长可预报时间的长度。但与此同时,问题也非常明显。
首先,AI 对极端天气的预测能力仍然不足。极端事件本身在数据中出现得就不多,而 AI 往往更擅长学习“常态”。
其次,AI 的输出结果往往偏平滑,这在视觉上可能看起来“合理”,但会掩盖一些真正重要的极端特征。
第三,它是一个黑盒。对于一线预报员来说,当模型给出一个结果时,他们很难像使用传统数值模型那样,追溯每一步计算的物理原因。
此外,传统数值模型天然包含不确定性评估机制,而 AI 原生并不具备这一能力。这在实际业务中,是一个非常关键的差异。
AI 科技评论
:所以您认为,数值模拟依然是不可替代的?
付昊桓
:是的,我认为数值模拟一定是整个体系的 backbone。它承载的是人类已经理解的物理规律,是可解释、可验证的。AI 的角色,不是推翻这一体系,而是在这个基础上去补充、去增强,甚至在长期发展中,帮助我们逐步“打开黑盒”。
04 回到人本身:关于科研、选择和时间
AI 科技评论
:现在越来越多科技公司进入气象和气候领域,您怎么看?
付昊桓
:这个赛道确实开始变得非常“卷”。但从另一个角度看,这也说明大家普遍认为,这个领域未来还有很大的突破空间。气象和气候并不是一个“已经被解决的问题”,相反,它仍然存在大量基础性的挑战。
AI 科技评论
:气象和气候的商业价值主要体现在哪里?
付昊桓
:我觉得至少体现在三个方面。第一,是季节尺度预报的金融属性。如果你能提前知道某一年、某一季的大致气候情况,会直接影响农业产量、大宗商品价格等。
第二,是能源系统。风电、光伏之所以难以稳定利用,很大程度上是因为它们的不确定性。如果预报更准,能源调度和成本控制都会发生根本性的变化。
第三,是碳达峰和碳中和。地球系统模型能力的提升,会对整个上下游产业链产生深远影响。
AI 科技评论
:算力和模型规模的不断扩张,真的带来了科学价值吗?
付昊桓
:从历史上看,每一轮重大技术变革在初期阶段,往往都会伴随着某种形式的泡沫。这并非偶然,而是技术潜力、资本预期与现实落地之间动态博弈的结果。互联网的发展过程在一定程度上已经呈现过类似情形。但泡沫过后,一定会留下真正有价值的能力。从长期来看,AI 很可能会像计算机一样,逐步进入所有行业,并在这个过程中,改变我们解决问题的方式。
AI 科技评论
:现在学界越来越强调交叉学科,您怎么看?
付昊桓
:我觉得这并不是一个新趋势,而是科学本身的属性。学科是成熟知识的沉淀,而真正的新发现,往往发生在学科交叉的地方。
AI 科技评论
:未来三年,您个人最期待哪方面的突破?
付昊桓
:我个人最期待的是3 到 6 个月尺度的预报能力突破。这是目前天气预报和气候预测之间的一个灰区,也是现实中非常重要、但目前还难以解决的问题。
AI 科技评论
:最后,您想给准备进入这个领域的年轻人什么建议?
付昊桓
:最重要的一点,是先想清楚:你为什么要做科研。如果没有内驱力,科研会变成一种消耗。我更希望年轻人是主动享受这个过程,而不是被环境推着走。
讲座完整视频,详见链接:
https://youtu.be/dw4tRbvoENY
回复
举报
atmos85
atmos85
当前离线
积分
355
61
主题
39
回帖
355
积分
中级会员
中级会员, 积分 355, 距离下一级还需 145 积分
中级会员, 积分 355, 距离下一级还需 145 积分
积分
355
发消息
楼主
|
发表于 2025-12-25 14:53:10
|
查看全部
回复
举报
atmos85
atmos85
当前离线
积分
355
61
主题
39
回帖
355
积分
中级会员
中级会员, 积分 355, 距离下一级还需 145 积分
中级会员, 积分 355, 距离下一级还需 145 积分
积分
355
发消息
楼主
|
发表于 2025-12-29 16:07:50
|
查看全部
https://mp.weixin.qq.com/s/r6DCSdFP0fBXyFg0fDhIyw
原创 张夏宁 雷锋网 2025年12月23日
“超算性能的突破与人工智能的深度融合,让全球气象预报从「风云莫测」走向「变幻可测」。 ”
作者丨张夏宁
编辑丨胡敏
12月12日,第八届 GAIR 全球人工智能与机器人大会于深圳正式拉开帷幕。
本次大会为期两天,由GAIR研究院与雷峰网联合主办,高文院士任指导委员会主席,杨强院士与朱晓蕊教授任大会主席。
作为 AI 产学研投界标杆盛会,GAIR自2016年创办以来,始终坚守 “传承+创新” 内核,是 AI 学界思想接力的阵地、技术交流的平台,更是中国 AI 四十年发展的精神家园。过去四年大模型驱动 AI 产业加速变革,岁末年初 GAIR 如约而至,以高质量观点碰撞,为行业与大众呈现AI时代的前沿洞见。
本次峰会之上,清华大学深圳国际研究生院长聘教授,国家超算深圳中心副主任付昊桓以“超智融合支撑下的地球系统模式研发”为主题,为参会者们带来了一场精彩纷呈的开场报告。
付昊桓教授在讲座上分享了超算在地球系统模式研发中的应用、发展历程、成果及面临的挑战,他认为超算与大模型开发具有很多相似之处,同时在地球系统模式的研发当中,超算还要面临如何应对时空分辨率提升所带来的算力需求指数级增长,以及如何利用AI进一步高效利用多源观测数据等挑战。
付昊桓教授介绍到,近些年来神威等国产超算系统的性能增长,支撑了地球系统模式时空分辨率的显著提高,实现在一公里层级左右达到一年每天的全球气候模拟速度。
他表示,地球系统模拟可以利用超算研究全球气候变化,以科学模型支撑防灾减灾,并期望在未来可以做到数值智能双驱动的大湾区百米级气象预报系统,以百米级的精度构建下一代大湾区气象模型。
最后,付昊桓教授总结道:“超算和智算思维类似,都是聚全力于一点,用最强算力形成技术的突破和创新,过程中工具需最大限度自动化,性能、效率、规模和稳定性缺一不可。”
讲座完整视频,详见链接:
https://youtu.be/dw4tRbvoENY
以下是付昊桓的现场演讲内容,雷峰网作了不改变原意的编辑及整理:
01
为什么需要用超算模拟地球?
今天非常荣幸参加此次活动。众所周知,超算的传统使命是用整台机器的资源来解决单一核心问题,而地球系统模拟正是超算的经典应用之一。为什么要用超算来做地球模拟?因为科学家无法在真实的地球上进行实验。研究化学、物理等学科,可在实验室内便捷地开展实验,但如果研究当前备受关注的碳达峰、碳中和、气候变化,以及未来台风是否会增多等地球气候的问题,就必须借助超算构建地球的数字孪生模型来进行实验。因此,基于超算的地球系统模式对于研究全球气候变化、防灾减灾,乃至可持续发展都具有重要意义。
这也关联到近期备受关注的气候谈判。在各种国际场合,气候变化也已演变为一个政治议题,各国围绕未来的碳中和计划、如何减排、减排多少等议题进行磋商。此类谈判同样需要模型支撑。由此可见,地球系统模式在众多方面发挥着重要作用。
图中左上角展示的是全球的地球系统模式的比较,汇总了全球各国的不同模式在过去近百年气候变化曲线的模拟结果。可以看到,各模型的模拟结果之间存在差异。如何进一步降低模型的不确定性?首先,是提升模式的时空分辨率。例如,深圳的下一代气象模式,我们目标将其时空分辨率提升至100米。这样,在台风来临时,就能更精准地研判台风对整个城市的具体影响,但同时这会带来计算需求的指数级增长。
其次,是新的AI方法。我们对地观测正在产生海量科学数据,除了用传统的数据同化方法将数据引入模型外,如何利用AI方法是一大方向。
与此同时,超算架构也在发生巨大变化,特别是2010年以来,我们从同构多核转向了GPU。规模上,也从百万核发展到千万核。当前所有的超算,包括国产超算,除了提供传统的双精度、单精度浮点算力,也集成了强大的AI算力。如何有效利用AI性能变得非常重要,这些发展也带来了新的挑战。
回复
举报
atmos85
atmos85
当前离线
积分
355
61
主题
39
回帖
355
积分
中级会员
中级会员, 积分 355, 距离下一级还需 145 积分
中级会员, 积分 355, 距离下一级还需 145 积分
积分
355
发消息
楼主
|
发表于 2025-12-29 16:11:26
|
查看全部
(接上篇)
02
挑战:指数级增长的算力需求与架构变革
第一个挑战是,计算机在向前发展,科学也在进步,我们如何解决越来越复杂的模型与机器之间的适配问题?另一个挑战是观测数据。太空中约有千余 颗卫星在进行科学观测,相当于地球每天在进行高精度“自拍”,如何融合这些数据,AI都可以发挥重要作用。
接下来,我简要介绍我们在地球系统模拟,或称数字孪生地球方面,于国产超算上开展的一些工作。首先介绍神威系列超级计算机。大家可能从新闻中有所了解,1998年的首代神威1,为国家气象局建造,服务于1999年50周年国庆阅兵的气象保障。当时它还是基于英特尔X86架构的机器,排名不高。而神威在国内外引起关注,始于济南的神威·蓝光。这是第一台完全采用国产处理器打造的超算,当时吸引了许多美、日专家前来考察。
而真正凭借全国产处理器获得世界第一的,是无锡的神威·太湖之光超算。其CPU内核完全自主研发,采用了全国产的众核片上融合异构架构,分为四个核组,每个核组由一个主核和一个8×8的从核阵列组成,集成了管理与高密度计算器件。连续四次获得世界第一的神威·太湖之光,也是全球首台峰值性能超过100 Pflops的机器,并行规模达一千万核。
这台机器问世之初曾面临一个挑战:由于采用了全新的国产架构,没有可直接在其上运行的大型复杂科学计算程序。因此,我们花了三到五年时间,在神威的国产生态上开发了200多个可扩展到百万核并行的应用。我们还发展了50余项可充分利用整机的新应用。对于程序员而言,使用一台一千万核的机器,如同现在用上万张显卡训练大模型,既是巨大挑战,也极富成就感。神威超算系列有10余项应用入围国际高性能计算应用最高奖“戈登·贝尔”奖,其中3项获奖。
这里列出了一些主要的全新应用领域,涵盖今天讲的地球系统模拟,以及工业仿真、当前备受关注的生物材料、图计算、生物医药数据分析、量子计算、高能物理、天文等,相关一系列生态正在神威平台上逐步建立起来。
这是我们2015年在神威上完成的第一个项目,即全系统地球系统模式的移植,包括大气、海洋、陆面、海冰及耦合器,将其整体迁移到新机器上运行。这项约百万行代码的移植工作,由清华和北师大组成的二十多人团队完成,并在该机器上实现了百万核规模的高效扩展。
如此复杂的地球系统模式移植本身是一个典型的复杂软件工程。因为程序本身复杂,涉及百万行代码,需在新机器上运行,且计算分布不均,需对整个代码进行优化与重构。而且该程序与新架构不适配,需进行全新设计。这类科学计算程序运行与大模型训练非常相似,需要在全机规模运行一个月甚至数月,对机器稳定性、I/O及整个系统都是巨大挑战。最后一个挑战是交叉型人才匮乏,难以找到既懂气象又懂HPC的人。近年来又面临一个新挑战:培养出的这类人才,很快便被从事大模型的公司挖走,因为能胜任这种规模系统调优的人,所面临的挑战与大模型领域高度相似。
在这个基于国产超算的模式研发项目中,我们的第一步是对整个程序进行重构与优化,针对这个复杂模型,我们分不同部分处理,例如其中的动力学部分、求解器部分,这些是相对程序员易懂的部分,我们进行了手动分析和优化。
另一部分是模型中的物理过程,包括云微物理过程、降水过程、辐射过程等。这对程序员是很大的挑战,因为他们不了解背后的物理机制。因此,我们主要借助自动化工具,对循环进行自动变换,以适配新架构。
经过初步重构优化后,我们基本实现了百万核规模的扩展,达到了每天模拟约三年气候的速度。
回复
举报
atmos85
atmos85
当前离线
积分
355
61
主题
39
回帖
355
积分
中级会员
中级会员, 积分 355, 距离下一级还需 145 积分
中级会员, 积分 355, 距离下一级还需 145 积分
积分
355
发消息
楼主
|
发表于 2025-12-29 16:15:57
|
查看全部
(接上篇)
03
从“刻画现象”到“驱动未来”
在2017年,我们在此基础上进一步重新设计了整个模型。所谓重新设计,就是针对神威处理器架构的特点,对算法、数据排布、计算过程、并行过程进行全面优化。
由于受生态限制,气象领域代码大多用Fortran编写,所以我们第一步是将Fortran重写为C,因为当时我们底层编写的Athread没有Fortran接口。转换成C之后,再开展底层优化,从而能够控制DMA、向量化,并实现Register Communication。
通过这种方式,我们才能真正实现对这一新处理器架构的利用。我们的一个神威核组(64个从核),在计算密集任务中,可相当于数个至四十多个英特尔核的性能。
2017年,我们的这项工作也入围了“戈登·贝尔”奖,这副图片是我们当时对卡特里娜飓风的模拟,其中展示了热带气旋逐渐形成、逼近美国大陆及消散的过程。这是我们首次尝试利用气候模型对此类台风、飓风现象进行较准确的刻画。
之后,我们利用这个模型支持了清华大学的气候系统模式,参与前述的国际模式比较计划。这套数据显著提升了对热带气旋的模拟能力,我们也吸引了美国国家大气研究中心(NCAR)的科学家合作,在神威上开发了高分辨率地球系统模式,并利用该模式生产了全球首套约750年的高分辨率气候模拟数据,供国际使用。
第二步,基于神威·海洋之光,我们进一步向公里级的地球系统模拟探索。海洋之光是神威·太湖之光处理器架构的演进,仍采用核组结构,但核组数从4个增至6个,每个核组仍是一个主核带64个从核。因为数据的缓存和移动能力至关重要,每个从核内部的缓存架构都得到了提升,因此存储和整体计算性能也得到了进一步提升。
在此基础之上,我们致力于将全球气候模式的分辨率提升至5公里级。图片展示的是我们2023年的工作,相比2015年首次移植CESM时,科学家已对气候模拟做了大量改进,推出了新版本,这个新版本又需要移植到新的超算上。基于前期经验,我们采用了一种“非侵入式的代码并行化方案”,核心是基于OpenMP的O2ATH Thread方案,自动将代码转换为Athread接口,从而完成了整个代码主要的并行化工作。
我们在2023年完成了这项三周内的模式移植探索(a three week porting experiment),从CESM 1.3 到 2.0,代码约有30%到40%的变动。我们通过这种自动化方式,在三周内完成了这套代码在新超算系统上的重构与调优过程。
这次工作使性能从最初的每天约模拟5天,提升到最后每天可模拟半年,并且是在全球5公里大气、3公里海洋的分辨率下实现。2024年,我们进一步引入AI能力,实现了AI增强的全球1公里分辨率,称为无缝隙的天气气候模式。它既可进行短时天气研究,也可用于长期气候研究,这也是我们开展此项工作的初衷。
大家看到的这几张图,a图名为“Blue Marble”,是NASA宇航员在飞船内拍摄的第一张完整地球照片,细节丰富。右上方c图是1965年首位因气候模型获得诺贝尔物理学奖的真锅淑郎等科学家提出的模型,分辨率约数百公里,较为粗糙。最后一张图是我们2024年实现的公里级模型,可见其对气候过程的刻画已非常接近遥感卫星实时采集的图像,为HPC与AI进一步融合提供了良好基础。
该模型在极端降水的模拟方面效果显著。
在新神威上,模型在弱扩展和强扩展方面均取得了良好的scaling能力。特别在集成AI能力后,可以实现接近全机规模的扩展,同时达到一年每天以上的模拟速度。
这张图小结了我们多年来在地球系统模拟方面的进展,包括美国、日本和中国超算在该领域推进的工作。图中横轴代表模拟分辨率,纵轴代表模拟速度。分辨率的提升意味着计算量以四次方增长。我们希望在提升分辨率的同时,加快模拟速度,目标是向图右上角推进。目前,我们大致可以在约1公里分辨率下达到接近一年每天的模拟速度。
这是我们今年的最新工作,集成了之前在大气、海洋等方面的工作。在与崂山海洋实验室合作的这个工作中,联合团队实现了一个名为“AI驱动的高性能便携式地球系统模型”(AI-Powered Performance Portable Earth System Model),这项工作也入围了今年戈登·贝尔奖气候建模类别的最终提名。
回复
举报
atmos85
atmos85
当前离线
积分
355
61
主题
39
回帖
355
积分
中级会员
中级会员, 积分 355, 距离下一级还需 145 积分
中级会员, 积分 355, 距离下一级还需 145 积分
积分
355
发消息
楼主
|
发表于 2025-12-29 16:18:51
|
查看全部
(接上篇)
04
展望:超算与智算的融合演进
接下来谈谈深圳超算二期。前面已部分提及,近期大模型发展如此迅速,其背后是AI的Scaling Law。其实在超算领域也是同样的核心逻辑,即通过高速互联将所有处理器连接成整体,形成庞大的计算资源,用以求解极其复杂的问题。这与用数万张卡训练大模型的本质相同,其背后需要高度并行可扩展的算法,以及能与算力增长匹配的模型复杂度。
另一个难点在于,超算上运行的多是科学与工程计算,其背后是科学和工程领域的数理方程。因此,算力、软件必须与科学发现协同发展。
我简单做了一个AI与科学计算领域的比较。在通用人工智能领域,过去这些年我们确实看到了近乎线性的有效扩展。其背后是Transformer这一目前业界近乎标准、非常适合并行的强力方法。它与GPU架构高度共生,形成了一套生态。数据方面,拥有大量公开数据集,并有良好的软件和人才生态。
现在所有AI会议几乎是计算机学术会议中参与人数最多、发文量最大的,自然吸引了大量研究人员。相比之下,科学计算的优势在于其背后是可解释的科学规律,是科学理解转化的方程和模型。但其缺点是代码复杂、并行难度高、演进缓慢。
培养一位能进行数理方程建模的研究者需时较长。算力主要依靠国产算力,大约从2013、2014年开始,我们主要基于神威·太湖之光等国产超算。此外,还存在公开数据集少、标注难、软件生态不完善,以及刚才提到的人才流动性大等问题——超算培养的人才常被大模型团队吸引。
回到国家超算深圳中心。在我们2010年一期系统基础上,二期系统即将上线。时隔15年,其效率将实现巨大提升,从原来的P级峰值双精度计算性能,提升至预期Linpack持续测试性能达到双精度2个E,单精度4个EFlops。
该处理器还支持INT 8计算,若换算为INT 8,整机可支持32 EFlops,理论峰值约40 EFlops。深圳超算二期将与鹏城云脑三期背靠背放置。深圳超算二期是传统超算,云脑三期是AI超算,两台机器间有高速光纤互联。如此大规模的传统超算与AI超算相连,在全世界可能也属首例,我们也很期待能探索其在计算上的全新应用。
国产先进CPU的双精度浮点算力较高,同时,它既可以做高精度的双精度浮点计算,又可以做 AI 的计算,当然这也是一个非常高密度集成的方案,最后是 2 万多节点可以提供持续大概2E以上的计算性能。
此图展示了初步的应用成果。在气象常用应用,如WRF或海浪预报中,均取得了显著的性能提升,尤其得益于芯片集成的片上内存带来的高带宽。
我们也准备这台机器上尝试HPC与AI融合的气象模型。例如,我本人主持的一个项目是在这台超算上尝试构建千万核可扩展的、公里级的我国区域海陆气候模式预测系统,核心目标是进行汛期预报,比如在3月份预测我国区域整个汛期(6、7、8月)的降水情况。这是一个非常困难的问题,包括当前的新型气象大模型也未能很好解决。我们已开始相关优化工作。非常期待高精度模拟与数据驱动大模型结合能产生何种效果。
在深圳我们希望推进的另一项工作,是构建“国产新一代数值智能双驱动大湾区百米级气象预报系统”,包括百米级高精度数值模拟、AI辅助的大样本集合预报与数据同化技术,以及数值模型与AI模型双驱动。
最后总结几点。从我作为一名超算研究者的角度看,超算与智算的思维非常相似,都是聚全力于一点,用我们最强算力的方式去形成技术的突破和创新。在这个过程中,我们所需的工具也需最大限度地自动化,如代码迁移、移植、生态运转等。在所有这些大型计算任务中,性能、效率、规模和稳定性缺一不可。如今,易用的生态愈发重要。重大问题的牵引始终是超算发展的核心驱动力,需要硬件与软件协同发展。最后,正如之前提到的,我们亟需跨领域复合型人才,并具备系统思维。
我今天的分享就到这里,谢谢大家。
回复
举报
atmos85
atmos85
当前离线
积分
355
61
主题
39
回帖
355
积分
中级会员
中级会员, 积分 355, 距离下一级还需 145 积分
中级会员, 积分 355, 距离下一级还需 145 积分
积分
355
发消息
楼主
|
发表于 2025-12-29 16:20:05
|
查看全部
(接上篇)
05
对话付昊桓:数值计算与 AI 的深度共生
下面是在演讲之后,付昊桓教授的专访以及现场观众的问答环节:
雷峰网:您现在在超算这边,最核心想做的事情到底是什么?
付昊桓:其实如果从一个比较抽象的层面来总结,我们现在最核心想推动的一件事,就是 数值计算和人工智能的深度融合。
地球系统只是一个比较典型、也比较容易被大家理解的例子,但并不是唯一的应用场景。类似的问题,其实在很多科学计算领域都会遇到,比如具身智能、生物医药、材料科学等等。只不过地球系统的复杂性、跨尺度挑战和社会影响都非常突出,所以它经常被拿出来讨论。
我们并不是说要单独把 AI 拿出来做一个“更聪明的模型”,也不是简单地去提升某一个模型的精度,而是希望从根本上去思考:在科学计算这样一个长期以数值模拟为核心的方法体系中,AI 到底应该以什么样的方式介入,才能真正改变我们理解和预测复杂系统的能力。
雷峰网:那为什么地球系统会被您反复作为一个核心例子?
付昊桓:因为地球系统本身,几乎把科学计算中最难的几个问题都集中在了一起。首先,它是一个典型的 混沌系统。我们常说的蝴蝶效应,本质上讲的是系统对初始条件的高度敏感性。哪怕是一个非常微小的扰动,在经过足够长的时间和足够复杂的相互作用之后,都可能对整体状态产生显著影响。
其次,它是一个极端多尺度的系统。比如说,台风这种现象,可能发生在几十公里的尺度上;而降水、对流,往往是公里甚至百米尺度;再往下,还有更微观的过程,发生在米级甚至更小的尺度上。
更重要的是,这些不同尺度的过程,并不是彼此独立的,而是相互耦合、彼此影响的。你不能只算大尺度而忽略小尺度,也不能只盯着局部而不看整体。正是这种“所有尺度连在一起”的特性,使得地球系统成为一个非常典型、但也极其困难的研究对象。
雷峰网:今年我们观察到市场关于算力讨论比较多,就像算力泡沫的这样声音一直存在,而国内一些上市公司的算力项目也出现延期或者终止的情况。但是另一方面,头部科技公司的资本支出一直在高速增长。所以想请教您怎么去判断当前整个算力市场的一个供需的情况?
付昊桓:其实我自己不是做算力的,但是我们超算培养的很多科研人员,现在确实在做算力。我觉得这里面有一个问题我觉得大家需要去关注,就是算力的投入,到底是不是投硬件就够了?特别是我们国产算力这一块。比如从超算的角度来讲,长期以来都是硬件的投入比较大,但是软件的投入相对比较少,我想国产的AI算力可能也面临这么一个问题。
刚才也提到了其实 GPU 的生态从大概从 CUDA 推出的 2008 年,到现在已经是十几年的发展才到现在这样,背后其实英伟达投了大量的资源来做这个生态,所以你说是不是应该大家都去投算力?还是说我们跟应用贴的更近的,应该多投一点资源来做相应算力的软件生态,特别是基础框架的软件?我感觉这块做的人可能相对还是比较少。
至于说这个算力到底够不够,我感觉对我们科研从业人员来讲可能还是不太够。至于说产业发展角度够不够,因为我不在这个行业里面,我也很难给出准确的判断。
(全文完)
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
数据交流
地模论坛
© 2001-2025
Discuz! Team
. Powered by
Discuz!
W1.5
京ICP备14024088号
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表