https://mp.weixin.qq.com/s/_v1PTdRjkzHRxSWfb6xUZg
EarthAi 2026年5月24日
迈向天气与气候数据的科学发现引擎:基于嵌入探索的可视化分析工作台 Toward a Scientific Discovery Engine for Weather and Climate Data: A Visual Analytics Workbench for Embedding-Based Exploration
代码链接:
https://github.com/NCAR/scivis-embedding-workbench
研究背景与核心挑战
地球系统科学正处在一个数据爆炸的时代。从基于物理的数值模式到人工智能驱动的天气气候模型,科学家们每天都在产生PB级、多变量、时空高维的海量数据集。AI模型的兴起更是加剧了这一趋势——它们不仅能以更低的计算成本生成更大的集合预报,还让我们有机会探索更多稀有和极端事件。然而,当数据规模远超人类直观理解能力时,瓶颈已经从"能否算出预报"转移到了"如何在海量结果中搜索、解释和验证"。
基于嵌入(Embedding)的表示学习为这一难题提供了极具吸引力的解决方案。通过将复杂的大气状态、空间区域或模式输出映射为低维向量,嵌入技术能够支持相似性搜索、类比检索、聚类和复发模式发现。对于地球系统科学而言,这种能力尤为珍贵——研究人员常常需要在庞大的历史档案或集合预报中寻找结构相似的事件。
但这里隐藏着一个根本性的信任危机:潜在空间中的"最近邻"并不自动等同于"科学上最相似"。检索结果可能真实反映了物理相关的气象结构,也可能只是预处理痕迹、地理偏差、季节性因素或模型偏好的产物。因此,科学检索不能止步于"返回结果",必须让研究者能够追溯结果背后的物理来源、比较不同表示模型的优劣、迭代优化检索策略,并用气象证据验证检索结果的可信度。
工作台的设计理念
针对上述痛点,来自美国国家大气研究中心(NCAR)的研究团队提出了一套开源可视化分析工作台,围绕三个核心目标展开设计:
可追溯的嵌入实验(G1)。 系统将每一次嵌入生成视为一个独立的"实验",并将其与共享的源数据集深度绑定。每一次实验都完整记录模型架构、预处理流程、空间采样方案、时间戳、元数据和源图像。这意味着研究者可以同时加载和对比自编码器、视觉基础模型、AI天气模拟器的潜在空间,而任何一个潜在空间的检索结果都能被精确追溯回原始物理数据和建模选择。
交互式、领域扎根的检索设计(G2)。 气象相似性的定义高度依赖于空间尺度、地理背景、季节属性和研究问题本身。工作台支持全局状态检索、局部 Patch 级检索、元数据约束检索、空间约束检索以及"全局到局部"的分阶段检索。返回的结果不仅是一组向量编号,而是直接关联到地图、时间戳、源图像、衍生场和匹配区域高亮显示,让研究者能在熟悉的气象视图中判断"这些最近邻是否真正捕捉到了有意义的大气结构"。
可扩展的核外检索(G3)。 嵌入工作流往往会在每个时间步、每个集合成员、每个变量或每个空间区域生成大量向量,轻松突破工作站的内存上限。系统采用基于磁盘的向量索引(Lance 后端),支持在内存远小于数据规模的情况下进行交互式检索,让研究者能在普通工作站上探索千万级甚至更高维度的嵌入集合。
系统架构与工作流程
该工作台的核心抽象是"嵌入实验":使用特定模型、预处理管道、空间采样方案和配置,从共享源参考数据集中生成的一组向量。这种抽象使系统保持模型无关性——案例中使用的是视觉基础模型(DINOv3 Base)生成的图像级和 Patch 级嵌入,但同样的结构可以容纳自编码器、对比学习模型或领域基础模型的嵌入。
系统采用"源数据"与"嵌入实验"分离的架构设计。源数据表存储原始或派生气象数据、时间戳、空间范围和元数据;实验表则存储模型配置、嵌入向量、空间索引信息和向量检索索引。这种分离带来两大优势:一是多个模型或预处理方案可以在同一套源数据上并行评估,无需重复拷贝底层数据;二是潜在空间的任何结果都能通过保留的链接追溯回物理起源。
在交互层面,工作台提供两种互补的探索模式。第一种是潜在空间组织探查:通过 PCA 或 UMAP 等降维投影,结合元数据刷选、平行坐标轴、图像画廊等联动视图,研究者可以直观判断潜在空间的聚类是否对应时间、地点、事件标签或其他物理属性。例如,在热带气旋案例中,UMAP 投影按 IBTrACS 最大持续风速着色后,含风暴的样本形成了明显的外围簇,而非风暴状态则广泛分布,这初步验证了嵌入结构具有气象物理意义而非潜在空间伪影。
第二种是检索策略构建与评估。用户可以以整张大气状态图、局部空间 Patch,或两者分阶段组合的形式发起查询。检索过程可叠加元数据或空间过滤器,返回结果通过源图像画廊、地图定位、时间戳、相似度分数和匹配区域高亮进行多维呈现。这使得搜索成为一个迭代式的视觉过程:调整查询形式和约束条件,检查返回的类比样本,判断检索策略是否真正捕捉到了预期的气象相似性。
热带气旋检索案例演示
论文以2016–2018年北大西洋盆地的ERA5小时复合场与IBTrACS风暴轨迹元数据为例,展示了完整的工作流。ERA5变量被编码为三通道图像:红色通道为平均海平面气压距平(-20至20 hPa,反向映射),绿色通道为10米风速(0至35 m/s,线性映射),蓝色通道为整层水汽(20至70 kg/m²,平方根映射)。
用户首先通过UMAP视图检查DINOv3潜在空间,发现高风速样本聚集成簇。框选该簇后,关联画廊中涌现出紧凑亮白中心的热带气旋图像、以绿色风场为主的北极冷空气侵入图像,以及具有宽广天气尺度结构的中纬度气旋图像。这一步在正式检索前就完成了"嵌入实验是否适合检索"的定性验证。
随后,用户发起了一次典型的局部查询:选取2016年10月8日飓风马修(Hurricane Matthew)靠近佛罗里达海岸的一个局部 Patch,并施加空间过滤器将检索范围限制在波多黎各附近的加勒比海区域。检索返回的结果极具可解释性:最近邻首先是马修自身轨迹上的其他帧,其次是2017年9月8日至12日经过波多黎各北部的飓风厄玛(Irma),以及2017年9月15日至27日在该岛登陆的飓风玛利亚(Maria)。更远的匹配还包括2017和2018年其他穿越过滤区域的大西洋热带系统。每个返回结果都附带 Patch 位置、时间戳和相似度分数,研究者可以据此判断检索策略是否成功捕捉到了"具有相似结构和地理位置的热带气旋"这一科学意图。
值得注意的是,作者并未在此论文中量化检索结果的"准确率"。他们认为,有意义的气象相似性定义、精心设计的查询集、嵌入模型的可解释性评估本身就是一项独立研究,而工作台正是支撑这类后续研究的底层基础设施。
|