闪电的放电过程包括初始空气击穿、先导通道发展、重新击穿、回击等若干子过程,对应不同的电磁辐射特征。基于闪电波形特征进行高效、精确的闪电放电类型的分类和识别,是雷电物理研究与防护领域的基本需求之一。
传统的闪电分类方式通常基于放电脉冲的上升沿、脉冲宽度等关键波形参数的经验阈值进行判断,由于受闪电定位仪探测频段和研究人员主观经验影响,识别准确率不稳定,基本在70%~90%。近年来,基于人工智能方法的分类器已经有不少研究,准确率可达到95%~99%,有望成为一种主流的分类方式,但当前的人工智能研究方法全部依赖纯监督学习,需大量人工标注样本。
为解决这一困境,本文提出一种基于掩码自编码器(MAE)框架的自监督神经网络模型。该模型首先利用大量未标注闪电波形数据进行自监督预训练,在预训练阶段通过重构掩码片段学习闪电信号特征;之后仅需少量标注数据进行监督微调训练,即可实现高准确率的分类任务。在MAE中,采用了多层transformer块构成编/解码器,直接处理海量的原始波形数据;在后续的微调训练中,只需要针对少量有标签样本训练,即可快速达到稳定的识别准确率。利用T-SNE可视化分析表明,预训练与微调阶段共同作用可显著提升模型性能。
在中国科学院大气物理研究所搭建的北京闪电网(BLNET)数据集上,模型对于5种闪电放电类型(正地闪、负地闪、普通云闪、预计穿、双极性窄脉冲)的识别准确率达98.30%。此外,在两个公开的闪电波形数据集上应用该模型,相比原作方法,本模型仅需极少量标注数据即展现出与之相当的准确率(分别为97.94%和98.29%)。本研究显示出,该模型在多个闪电波形数据集中表现稳定,具有通用型和鲁棒性,为闪电波形分类和识别提供了更高效的解决方案。
该成果近期在线发表于Geophysical Research Letters。论文第一作者是浪潮信息AI&HPC团队卢晶雨博士,通讯作者是中国科学院大气物理研究所袁善锋副研究员,研究得到了国家自然科学基金(42027803, 42230609, 42475098)、中国科学院大气物理研究所十四五规划青年项目、中国科学院战略先导专项(XDB0760100)、大气环境与极端气象全国重点实验室自主课题青年项目(2024QN09)联合资助。
图1. 基于掩码自编码器(MAE)框架的自监督人工神经网络闪电波形分类器流程图 图2. 四种不同模型的T-SNE可视化结果。(a) 随机初始化数据模型(未经过预训练的模型);(b) 在(a)模型基础上使用训练数据集微调后的模型;(c) 基于无标签数据集进行自监督预训练的模型(仅经过预训练的模型);(d) 在(c)模型基础上使用训练数据集微调后的模型(经过预训练和微调的模型)。在图(d)中标注了闪电过程具体类型。
表1. 本研究的闪电波形识别准确率,及两个公开的闪电波形数据集分别应用原文方法和本文方法的准确率对比。overall为整体,IC为云闪,PCG为正地闪,NCG为负地闪,PB为预击穿事件,NBE为双极性窄脉冲事件,RS为回击。
论文信息:
Lu, J., Li, J., Liu, Y., Yuan, S.*, Pu, Y., Bian, Q., et al. (2025). An efficient lightning classifier using a self‐supervised learning neural network. Geophysical Research Letters, 52, e2025GL115067. https://doi.org/10.1029/2025GL115067
转自: https://iap.cas.cn/gb/xwdt/kyjz/202507/t20250702_7878168.html |