人工智能算力革命:中国超算“灵晟”登顶TOP500,纯CPU设计引领最新科技
图片来源:AI生成

在2026年6月期的TOP500超级计算机榜单中,中国超算“灵晟”以2.198 Exaflop/s的Rmax算力成功登顶,成为八年来首台来自中国的冠军系统,也是全球首台Rmax突破2 Exaflop/s大关的超级计算机。这一里程碑不仅印证了中国在高性能计算领域的深厚积累,更标志着人工智能算力基础设施迈入全新纪元。当大模型训练对算力的需求呈指数级增长,纯CPU架构的“灵晟”以令人惊叹的能效比和自主可控的生态,向世界展示了一条不同于GPU依赖的差异化路径。

八年磨一剑:中国超算“灵晟”何以称霸?

“灵晟”超算的登顶并非偶然。它基于“LingKun”平台,采用304核1.55GHz的LX2处理器和自研“LingQi”互连技术,总共集成1379万个内核,运行麒麟操作系统。这颗纯CPU设计的“巨兽”没有使用任何GPU加速卡,却在HPL基准测试中实现了2.198 Exaflop/s的持续性能,功耗约42.2MW,能效达到52.07 Gigaflops/W,位列GREEN500第50名。

与上一代冠军系统相比,“灵晟”的登顶意味着中国超算从“追赶”转向“引领”。2018年以来,美国Summit、Frontier等系统长期占据榜首,而中国天河、神威系列虽多次进入前十,却始终未能问鼎。此次“灵晟”的突破,得益于国产处理器架构的迭代——LX2处理器在单核性能和多核协同上实现了质的飞跃。更关键的是,LingQi互连技术解决了万核级并行通信的瓶颈,使得1379万内核能够高效协同工作。

这一成就的背后,是中国在半导体设计与系统集成领域的长期投入。与当前主流超算依赖GPU加速的路线不同,“灵晟”的纯CPU方案在通用计算任务中展现出独特优势。例如,在生命科学、气候模拟等需要高精度浮点运算的场景下,CPU的灵活性和稳定性往往优于GPU。而大模型训练中常见的混合精度计算,也能通过HPL-MxP基准测试得到验证——灵晟在该项排名第四,说明其在高精度与混合精度之间取得了平衡。

人工智能算力革命:中国超算“灵晟”登顶TOP500,纯CPU设计引领最新科技配图
图片来源:AI生成

纯CPU路线:一场对GPU垄断的挑战?

长期以来,全球超算格局被英伟达GPU主导。美国Frontier、日本富岳等顶尖系统均采用GPU+CPU异构架构。然而,“灵晟”的纯CPU设计证明:在顶级算力竞赛中,CPU并非没有一战之力。这一选择背后是深刻的战略考量:

首先,自主可控。GPU供应链受国际政治影响较大,而国产CPU完全摆脱了外部限制。从指令集到制造工艺,“灵晟”实现了全链条自主。其次,能效比。虽然GPU在矩阵运算上具有天然优势,但CPU在任务调度、内存访问延迟等方面更均衡。“灵晟”的52 Gigaflops/W能效虽未进入GREEN500前列,但考虑到其纯CPU架构,这一表现已相当出色。

更重要的是,这一路线为特定领域的AI技术应用提供了新思路。例如,在自动驾驶仿真、金融风控等需要实时响应的场景中,CPU的低延迟特性优于GPU。而AI画图等生成式AI任务虽然高度依赖GPU,但底层的图像处理、物理引擎等非矩阵计算部分,仍离不开CPU的协同。

当然,纯CPU方案也面临挑战:在处理大规模并行矩阵乘法时,单位算力成本高于GPU。但“灵晟”的登顶向行业传递了一个信号:最新科技的发展不应只有一条路。未来超算可能会走向CPU+GPU+DPU等多芯融合,而非单一架构垄断。

从HPL到HPCG:评测体系的全面领先

“灵晟”不仅在HPL(高性能Linpack)中登顶,还在HPCG(高性能共轭梯度)测试中位居第一。这一成绩更有说服力——因为HPCG更贴近真实应用场景,模拟的是稀疏线性方程求解,常用于计算流体力学、地震模拟等领域。相比之下,HPL侧重密集矩阵运算,容易被优化到极致的硬件“刷分”。

“灵晟”在HPCG上的第一,意味着其在真实应用中的计算效率同样顶尖。此外,它在HPL-MxP混合精度基准中排名第四,说明其对低精度推理场景也有良好支持。这对于人工智能推理和训练尤为重要——大模型微调、推理加速等任务往往依赖混合精度。

值得注意的是,意大利能源巨头埃尼的HPC7系统以571.50 PFlop/s位列第六,采用AMD Zen 4 EPYC处理器和MI300A APU。这反映出超算商业化的趋势:能源企业利用超算进行地质勘探、油气模拟,而科研机构则更关注气候、生命科学等基础研究。企业数字化转型的浪潮下,超算正从“国之重器”走向行业应用。

超算与人工智能:算力引擎如何驱动AI进化?

“灵晟”的登顶对人工智能领域意义深远。当前大模型训练对算力的需求已从千卡集群迈向万卡集群,甚至十万卡。传统GPU集群面临能耗、通信瓶颈、散热等挑战。而纯CPU超算在通用性、稳定性上的优势,可能为AI训练提供一种“绿色”替代方案。

例如,在自然语言处理中的大规模并行预训练,CPU虽然单次计算慢,但由于核数众多且内存带宽高,整体吞吐可以逼近GPU。更关键的是,CPU支持更灵活的精度控制,对于某些对精度要求高的强化学习任务,CPU反而更优。

与此同时,超算与AI技术的结合催生了“AI for Science”新范式。在药物分子筛选、蛋白质折叠预测、气候模型降尺度等领域,超算提供的算力可以加速科学发现。而文生图AI图片生成等创意工具虽然依赖GPU,但其底层的训练数据生成、模型评估等环节同样需要超算参与。

可以预见,未来超算将不再是“跑分工具”,而是成为AI基础设施的核心组件。AI工具导航等平台可以帮助用户快速定位适合特定任务的算力资源,而“灵晟”这类国产超算的开放,将降低国内AI企业的研发门槛。

中国超算生态:从硬件到软件的自主之路

“灵晟”的成功不仅仅是硬件的胜利,更是整个生态的突破。它搭载的麒麟操作系统经过了深度定制,针对LX2处理器的多核调度进行了优化;LingQi互连则实现了百亿亿次级的消息传递效率。此外,中国超算团队还在编译器、并行编程框架、应用软件适配等方面做了大量工作。

软件生态曾是国产超算的短板——当年神威·太湖之光虽算力强劲,但应用开发者面临编程困难。如今,“灵晟”团队在开源生态上持续投入,支持主流并行编程模型如MPI、OpenMP,并针对AI框架(如PyTorch、TensorFlow)进行了适配。这意味着开发者可以较低成本将现有应用迁移至国产平台。

对于普通用户而言,国产超算的普及也将间接推动最新科技的下沉。例如,通过云计算方式,中小企业可以按需调用超算资源进行产品仿真或AI推理。AI网名生成、艺术签名设计等轻量级应用虽然用不到超算,但背后的大模型训练可能就依赖此类集群。

未来展望:E级超算后的竞争格局

“灵晟”的登顶标志着中国正式迈入E级超算俱乐部(Exaflop/s级)。但竞赛远未结束:美国正规划百亿亿次级的El Capitan系统,日本、欧盟也在布局后续机型。下一代超算将更强调“算效”——即每瓦性能、每美元性能。而人工智能的介入,使得超算架构需要兼顾训练和推理两种负载。

另一个趋势是“超算+云计算”融合。传统超算专为大规模批处理任务设计,而云计算强调弹性、多租户。未来,超算可能通过虚拟化技术提供按需算力,类似AI工具箱中的云服务形态。这将对国产超算的软件栈提出新挑战。

总之,“灵晟”的登顶不仅是中国科技实力的象征,更是全球超算多元化发展的缩影。当AI技术继续狂飙,纯CPU路线能否持续演进?答案或许藏在“灵晟”下一代架构的更新中。