NCAR重磅开源：这台"天气发现引擎"破解PB级气候数据困局

Ray · 发表于 2026-5-25 14:31:00

https://mp.weixin.qq.com/s/_v1PTdRjkzHRxSWfb6xUZg
EarthAi 2026年5月24日

迈向天气与气候数据的科学发现引擎：基于嵌入探索的可视化分析工作台

Toward a Scientific Discovery Engine for Weather and Climate Data: A

Visual Analytics Workbench for Embedding-Based Exploration

代码链接：
https://github.com/NCAR/scivis-embedding-workbench

研究背景与核心挑战

地球系统科学正处在一个数据爆炸的时代。从基于物理的数值模式到人工智能驱动的天气气候模型，科学家们每天都在产生PB级、多变量、时空高维的海量数据集。AI模型的兴起更是加剧了这一趋势——它们不仅能以更低的计算成本生成更大的集合预报，还让我们有机会探索更多稀有和极端事件。然而，当数据规模远超人类直观理解能力时，瓶颈已经从"能否算出预报"转移到了"如何在海量结果中搜索、解释和验证"。

基于嵌入（Embedding）的表示学习为这一难题提供了极具吸引力的解决方案。通过将复杂的大气状态、空间区域或模式输出映射为低维向量，嵌入技术能够支持相似性搜索、类比检索、聚类和复发模式发现。对于地球系统科学而言，这种能力尤为珍贵——研究人员常常需要在庞大的历史档案或集合预报中寻找结构相似的事件。

但这里隐藏着一个根本性的信任危机：潜在空间中的"最近邻"并不自动等同于"科学上最相似"。检索结果可能真实反映了物理相关的气象结构，也可能只是预处理痕迹、地理偏差、季节性因素或模型偏好的产物。因此，科学检索不能止步于"返回结果"，必须让研究者能够追溯结果背后的物理来源、比较不同表示模型的优劣、迭代优化检索策略，并用气象证据验证检索结果的可信度。

工作台的设计理念

针对上述痛点，来自美国国家大气研究中心（NCAR）的研究团队提出了一套开源可视化分析工作台，围绕三个核心目标展开设计：

可追溯的嵌入实验（G1）。系统将每一次嵌入生成视为一个独立的"实验"，并将其与共享的源数据集深度绑定。每一次实验都完整记录模型架构、预处理流程、空间采样方案、时间戳、元数据和源图像。这意味着研究者可以同时加载和对比自编码器、视觉基础模型、AI天气模拟器的潜在空间，而任何一个潜在空间的检索结果都能被精确追溯回原始物理数据和建模选择。

交互式、领域扎根的检索设计（G2）。气象相似性的定义高度依赖于空间尺度、地理背景、季节属性和研究问题本身。工作台支持全局状态检索、局部 Patch 级检索、元数据约束检索、空间约束检索以及"全局到局部"的分阶段检索。返回的结果不仅是一组向量编号，而是直接关联到地图、时间戳、源图像、衍生场和匹配区域高亮显示，让研究者能在熟悉的气象视图中判断"这些最近邻是否真正捕捉到了有意义的大气结构"。

可扩展的核外检索（G3）。嵌入工作流往往会在每个时间步、每个集合成员、每个变量或每个空间区域生成大量向量，轻松突破工作站的内存上限。系统采用基于磁盘的向量索引（Lance 后端），支持在内存远小于数据规模的情况下进行交互式检索，让研究者能在普通工作站上探索千万级甚至更高维度的嵌入集合。

系统架构与工作流程

该工作台的核心抽象是"嵌入实验"：使用特定模型、预处理管道、空间采样方案和配置，从共享源参考数据集中生成的一组向量。这种抽象使系统保持模型无关性——案例中使用的是视觉基础模型（DINOv3 Base）生成的图像级和 Patch 级嵌入，但同样的结构可以容纳自编码器、对比学习模型或领域基础模型的嵌入。

系统采用"源数据"与"嵌入实验"分离的架构设计。源数据表存储原始或派生气象数据、时间戳、空间范围和元数据；实验表则存储模型配置、嵌入向量、空间索引信息和向量检索索引。这种分离带来两大优势：一是多个模型或预处理方案可以在同一套源数据上并行评估，无需重复拷贝底层数据；二是潜在空间的任何结果都能通过保留的链接追溯回物理起源。

在交互层面，工作台提供两种互补的探索模式。第一种是潜在空间组织探查：通过 PCA 或 UMAP 等降维投影，结合元数据刷选、平行坐标轴、图像画廊等联动视图，研究者可以直观判断潜在空间的聚类是否对应时间、地点、事件标签或其他物理属性。例如，在热带气旋案例中，UMAP 投影按 IBTrACS 最大持续风速着色后，含风暴的样本形成了明显的外围簇，而非风暴状态则广泛分布，这初步验证了嵌入结构具有气象物理意义而非潜在空间伪影。

第二种是检索策略构建与评估。用户可以以整张大气状态图、局部空间 Patch，或两者分阶段组合的形式发起查询。检索过程可叠加元数据或空间过滤器，返回结果通过源图像画廊、地图定位、时间戳、相似度分数和匹配区域高亮进行多维呈现。这使得搜索成为一个迭代式的视觉过程：调整查询形式和约束条件，检查返回的类比样本，判断检索策略是否真正捕捉到了预期的气象相似性。

热带气旋检索案例演示

论文以2016–2018年北大西洋盆地的ERA5小时复合场与IBTrACS风暴轨迹元数据为例，展示了完整的工作流。ERA5变量被编码为三通道图像：红色通道为平均海平面气压距平（-20至20 hPa，反向映射），绿色通道为10米风速（0至35 m/s，线性映射），蓝色通道为整层水汽（20至70 kg/m²，平方根映射）。

用户首先通过UMAP视图检查DINOv3潜在空间，发现高风速样本聚集成簇。框选该簇后，关联画廊中涌现出紧凑亮白中心的热带气旋图像、以绿色风场为主的北极冷空气侵入图像，以及具有宽广天气尺度结构的中纬度气旋图像。这一步在正式检索前就完成了"嵌入实验是否适合检索"的定性验证。

随后，用户发起了一次典型的局部查询：选取2016年10月8日飓风马修（Hurricane Matthew）靠近佛罗里达海岸的一个局部 Patch，并施加空间过滤器将检索范围限制在波多黎各附近的加勒比海区域。检索返回的结果极具可解释性：最近邻首先是马修自身轨迹上的其他帧，其次是2017年9月8日至12日经过波多黎各北部的飓风厄玛（Irma），以及2017年9月15日至27日在该岛登陆的飓风玛利亚（Maria）。更远的匹配还包括2017和2018年其他穿越过滤区域的大西洋热带系统。每个返回结果都附带 Patch 位置、时间戳和相似度分数，研究者可以据此判断检索策略是否成功捕捉到了"具有相似结构和地理位置的热带气旋"这一科学意图。

值得注意的是，作者并未在此论文中量化检索结果的"准确率"。他们认为，有意义的气象相似性定义、精心设计的查询集、嵌入模型的可解释性评估本身就是一项独立研究，而工作台正是支撑这类后续研究的底层基础设施。

Ray · 发表于 2026-5-25 14:31:32

（接上篇）

性能评估：大规模核外检索

为了验证系统在消费级硬件上的实用性，研究团队对基于内存映射的 IVF-PQ 索引进行了基准测试。测试数据覆盖从98万到2355万个768维 Patch 嵌入向量，测试环境模拟了一台配备16 GiB内存和本地NVMe SSD的常规工作站。

IVF-PQ 索引结合了倒排文件（IVF）和产品量化（PQ）两项技术：IVF 将向量空间分区，使搜索只需探测部分候选区域；PQ 则通过压缩向量降低存储和内存开销。测试指标包括平均延迟（交互响应性）、p95/p99 尾延迟（最坏情况）、峰值驻留内存（RSS）和 Recall@10（近似搜索与精确最近邻的一致性）。

结果显示，系统成功实现了远超内存容量的核外搜索。当原始 float32 向量占用空间在最大规模下远超16 GiB预算时，进程峰值 RSS 始终维持在约3 GiB水平，完整语料从未被加载进内存。这意味着在普通工作站上还有巨大的扩展空间，上限主要取决于存储带宽和访问模式。在查询质量方面，Recall@10 在所有测试规模下均保持在92%以上（从99.2%缓慢下降至92%），平均延迟虽随语料规模增长，但在最大规模下仍低于100毫秒，完全满足探索式交互的需求。通过调整 IVF 探测区域数量和精化深度，用户可以在延迟和召回率之间灵活权衡。

研究意义与未来展望

这项工作的最大价值在于，它将"嵌入检索"从黑箱式的技术工具转变为可审计、可解释的科学发现工作流。在天气与气候数据日益庞大、AI模型百花齐放的背景下，研究者需要的不是单一的"最佳"检索接口，而是一个能够实验不同表示模型、比较检索策略、并用物理证据验证结果的开放环境。工作台通过"实验-源数据"分离架构和全程可追溯设计，恰好填补了这一空白。

从更宏观的视角看，该研究也为AI for Earth Sciences领域提供了一个重要启示：技术可行性不等于科学可信性。无论潜在空间的数学性质多么优美，最终都必须接受气象物理的检验。这种"潜在空间探索—物理验证—策略迭代"的闭环，正是未来地球系统大数据分析的主流范式。

展望未来，作者计划进一步完善查询构建与检索解释的用户体验，并将检索查询的导出功能与现有的可解释性AI（XAI）工作流深度整合。此外，随着多模态大模型和视觉-语言模型的成熟，工作台有望支持更丰富的跨模态查询和自然语言驱动的地球系统数据探索，让科学家能够以更直觉的方式与海量气候数据对话。
（完）