https://mp.weixin.qq.com/s/PG5CI1B33YujROfhwWIAog
原创 唐伟, 郭转转,等 气象与环境科学 2025年09月18日
《气象与环境科学》2025年第4期刊载了:
DeepSeek 对气象行业的影响
唐伟,郭转转,李欣,李卓然,郎洪亮,周勇 (中国气象局气象发展与规划院,北京 100081)
基金项目:中国气象局发展与规划院基础研究项目(JCXM2024005)
责任编辑:王君
作者简介:
唐伟(1987—),女,江苏阜宁人,高级工程师,博士,从事气象科技战略研究.
Email:weitang@cma.gov.cn
通信作者:
周勇(1972—),男,江苏无锡人,研究员级高级工程师,硕士,从事气象发展战略、气象信息化和智慧气象相关研究.
Email:zhouy@cma.gov.cn
摘 要
近期,DeepSeek国产开源大模型引起了国内外各界的广泛关注,并借助其技术优势和开源策略,迅速在通信、金融、医疗、环保、教育和政务服务等垂直领域得到应用。DeepSeek在气象部门的部署应用,有助于夯实气象科技自立自强基础,促进业务全面智能化转型;促进供给与需求精准对接,助力实现智慧气象服务;提供新的管理工具;带动气象产业规模增长和效率提升。同时,也对气象专业化应用、气象治理、风险管理带来新的挑战。因此,在部署和应用DeepSeek时,应加强政策引导和机制建设:构建自主可控、弹性可扩展的人工智能气象应用技术支撑体系;结合DeepSeek技术特点和气象业务服务需求,有序推广应用;灵活运用多种政策工具,强化人工智能大模型气象应用治理;借鉴杭州政府和DeepSeek企业成功经验,营造完善的气象科技创新生态。
关键词
DeepSeek;气象;人工智能;大模型
引 言
近年来,生成式人工智能(Artificial Intelligence,AI)技术蓬勃发展。自2017年Vaswani等提出Transformer架构(即“注意力机制”,可高效建模长序列依赖)以来,大规模预训练已成为生成式AI领域范式。作为一类能够自主生成新内容(包括文本、图像、音频和视频等)的技术,生成式AI预训练模型通过学习已有数据模式、规则等来创造全新的数据实例。该能力已在多个科研与产业领域取得了实质性成果,以前所未有的速度改变着各行各业运行模式。在气象领域,生成式AI可用于生成全球和区域天气预报和气候预测,从而提升天气预报的时效性和准确率;在材料科学领域,DeepMind开发了图神经网络模型GNoME,一次性预测出超过220万种潜在新型晶体材料,其中38万种被评估为高度稳定,大幅加速了新材料的发现;在生命科学中,生成式AI辅助发现并设计出新药物——如利用生成式AI所研制的抗肺纤维化药物INS018_055已获得FDA孤儿药资格认证;在教育领域,AI导师被证实能大幅提升学习效率,一项随机对照实验表明,学生在使用AI导师系统学习时,短期内学习成绩提高了127%。这些案例显示出生成式AI在计算效率、创新能力和任务转化方面的巨大潜力。
支撑这一变革的,是底层大模型能力的跃迁。在Transformer架构基础上,以BERT和GPT为代表的大模型展现出强大的语义建模与泛化能力,而ChatGPT的推出则标志着通用人工智能的起点和强人工智能的拐点,是里程碑式的技术进步。
随着多模态大模型的发展,从图文对齐模型,到生成图像的扩散模型,再到能够理解图文并生成复杂推理输出的预训练大模型等,预示着生成式AI正朝着“通用人工智能”迈进。全球多家机构在这一趋势下纷纷投入研发。国际上,OpenAI构建的GPT-4已支持多模态输入,在复杂推理任务中表现出接近专家水平的能力;谷歌DeepMind于2023年发布的Gemini模型聚焦图文推理与科学应用;Meta则以开源为特色,其LLaMA系列降低了大模型开发门槛。与之相比,中国的大模型研究虽起步略晚,但在算法机制与应用落地方面进展迅速。百度的ERNIE系列探索知识增强预训练路径,提升中文理解与生成效果;清华智谱团队提出GLM系列,创新性引入自回归填空机制,增强推理与生成统一性;华为的盘古大模型则在语言与科学计算两个方向并进。2025年1月,开源大模型DeepSeek-R1发布。该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、编程、自然语言推理等任务上表现出色,性能比肩美国OpenAI o1大模型,而训练成本仅为后者的3%~5%。DeepSeek-R1一经发布,即受到多国政府、企业和学术界的广泛关注。
在政府方面,DeepSeek除在国内得到支持外,其他多国政府也对其技术创新和应用潜力表现出浓厚兴趣,在一定程度上反映了我国人工智能技术的快速发展与竞争力提升。在企业界,众多企业已将DeepSeek视为推动数字化转型和商业智能的关键工具,中国电信和国家能源集团等国有企业、华为和腾讯等国内民企,以及英伟达和微软等外国企业已陆续接入DeepSeek,人工智能大模型领域竞争企业(如OpenAI、Meta、Google、xAI等)也对DeepSeek所取得的成就给予了高度评价。在学术界,DeepSeek取得的技术突破及其开源策略赢得了广泛认可。2025年1月,《Nature》杂志发文称“中国开发的大语言模型DeepSeek-R1以亲民价格和开放性挑战了OpenAI推理模型GPT o1的地位,令科学家们感到兴奋”。图灵奖得主杨立昆(Yann LeCun)表示,DeepSeek的成功得益于其开放生态和基于前人成果的持续迭代。调研显示,DeepSeek在气象行业领域也有广阔的应用场景。本文概述了DeepSeek的主要特点和应用情况,并从气象业务、服务、治理和产业发展等方面深入分析了其对气象行业的影响。
1 DeepSeek主要特点和各领域应用概况
DeepSeek具有低成本、高效率、高性能等特点,而且采取开源策略,促进技术社区的合作与创新,从而大幅降低了开发与使用门槛,迅速在通信、金融、医疗、环保、教育和政务服务等多个垂直领域得到应用。
DeepSeek主要技术创新点有3点。首先,采用强化学习进行训练,从零开始让模型在无监督微调的情况下自然涌现出链式推理、自我验证和反思等高级行为。其次,采用混合精读计算,在部分模块中保留高精度运算以确保数值稳定性,其他部分模块则降低计算精度,减少运算量和通信量,从而提高总体运行速度。第三,优化负载均衡,并直接编写底层代码以充分利用GPU的并行计算能力,最大程度提高硬件使用率。此外,融合多种已有技术并实现集成创新,也是DeepSeek的主要成功之处。目前,DeepSeek在垂直领域应用方面已呈现出多维度落地、百花齐放的格局,通过提升效率(如提高推理计算效率、提升文件审核速度)、降低成本(包括部署成本和训练成本)、增强智能化水平(如医疗诊断、文档写作),形成了一批典型应用案例和覆盖“政企学研”的规模化应用格局,同时激发了人工智能人才虹吸效应与学术创新突破。
2 DeepSeek给气象领域带来的新机遇
气象事业是科技型、基础性、先导性社会公益事业,涉及到气象监测、气象预报预测、气象服务、气象防灾减灾、应对气候变化、开发利用气候资源、人工影响天气等方面工作。对气象领域而言,DeepSeek也为行业降本增效带来了新机遇。
首先,DeepSeek部署应用,有助于夯实气象科技自立自强基础,促进业务全面数智化转型。在算力建设方面,DeepSeek与国产算力芯片相结合,能够降低对进口图形处理器(GPU)的依赖。在科创平台方面,作为性能最佳的开源模型之一,基于DeepSeek建立开放式科创平台,更易实现技术社区的合作与创新。在预报大模型方面,由于DeepSeek免费开源,便于取其精华,将其中的先进功能或模块集成到现有气象大模型中,实现优势互补,加快提升“风雷”“风清”“风顺”等气象大模型的性能。此外,DeepSeek在数智预报员助手、观测基础设施运维保障、多元数据处理、程序代码自动生成、可嵌入开发环境建设、情报收集分析和决策咨询指引等方面也有广泛的应用前景。
其次,DeepSeek部署应用,能够促进供给与需求精准对接,助力实现智慧气象服务。在服务大模型方面,DeepSeek高效训练架构、MoE模型、知识蒸馏技术、通信与计算协同优化、混合精度加速计算等技术,为解决“风和”大模型实时运行算力资源需求过大的问题提供了一种可行方案。在专业服务方面,DeepSeek有助于提升用户服务需求的智能感知能力,并提高个性化气象服务产品生成效率和质量。此外,DeepSeek的大规模应用,有助于形成统一接口标准,为气象服务系统跨部门安全接入或部署创造有利条件。
|