联想问天超节点发布AI新闻:单节点40GPU打造28 PFLOPS算力新标杆
图片来源:AI生成

在大模型训练对算力需求呈指数级增长的当下,联想在北京举办的发布会上正式亮出了自己的“王牌”——问天超节点算力解决方案。这款单节点可搭载40张GPU、FP8算力突破28 PFLOPS的旗舰级方案,不仅刷新了服务器算力密度的天花板,更让整个AI新闻行业重新审视算力基础设施的未来走向。与此同时,联想还发布了升级后的万全异构智算平台5.0,通过集群训推加速和芯模编译优化两大核心技术,试图解决大模型落地中“算得慢、调不好”的顽疾。本文将深度解析这两款AI技术产品的设计逻辑、技术亮点及其对产业生态的影响。

算力竞赛背后的战略宣言:联想“千亿目标”与市场野心

联想集团副总裁、中国基础设施业务群总经理陈振宽在发布会现场掷地有声地宣布:到2027年,联想中国基础设施群将锚定1000亿元人民币的营收目标,并剑指中国服务器市场第一。这一战略目标背后,是联想对AI算力基础设施数十年的技术积累和对行业趋势的精准判断。

随着生成式AI从概念走向落地,大模型的参数规模已从百亿级跃升至万亿级,传统服务器架构在显存带宽、通信延迟、集群协同等方面暴露出严重瓶颈。联想此次推出的问天超节点系列,正是为了打破这些天花板而生的“重型武器”。值得注意的是,联想并非单纯追求硬件堆料,而是将“强算力、全互联低时延、灵活扩展、简易部署”作为四大设计原则,试图为企业级用户提供一种从单节点到万卡集群的全栈式解决方案。

从市场格局看,国内服务器市场长期由浪潮、华为等厂商占据主导地位,联想此次高调宣布“第一”目标并发布具有里程碑意义的产品,意味着AI基础设施赛道正在经历一场由算力需求驱动的洗牌。对科技产品行业来说,联想的入局不仅为云计算厂商、互联网公司提供了更多选择,更将推动整个供应链在GPU互联、散热方案、高密度机箱等环节的技术迭代。

当然,雄心壮志背后是严峻的挑战:当前国产高端GPU生态尚不成熟,NVLink等专有互联协议面临断供风险。联想问天超节点如何平衡国际芯片依赖与自主可控?这将是后续市场验证的关键。但无论如何,这一声“千亿宣言”已经为AI新闻界注入了强烈的信号——算力基础设施正成为科技巨头争夺的下一个战略高地。

联想问天超节点发布AI新闻:单节点40GPU打造28 PFLOPS算力新标杆配图
图片来源:AI生成

问天超节点:40卡异构架构如何打破万亿模型训练瓶颈

问天超节点最吸引眼球的数据无疑是“单节点搭载40张GPU,FP8算力超28 PFLOPS,HBM显存突破5.76 TB”。这些参数意味着什么?简单来说,一个节点就能支撑起此前需要数十个传统节点才能完成的万亿参数大模型训练任务,大幅降低了集群规模和网络复杂度。

从架构设计上看,联想采用了一种名为“无线缆正交直插”的物理连接方式,所有GPU均直接通过高速背板与CPU、内存模块实现点对点互连,彻底消除了线缆带来的信号衰减和散热问题。这使得节点间的访存总带宽超过80TB/s,芯片间的P2P单向时延被压缩到百纳秒级别——这个数值接近目前业界最顶级的NVLink 4.0水平。

更值得关注的是它的扩展模式:通过Scale-out横向扩建,用户可以从单节点的32卡配置平滑升级到40卡,并进一步堆叠成万卡级集群。这种灵活性非常贴合AI研发企业的实际需求——初创公司可以先以32卡起步进行模型开发测试,业务膨胀后再无缝扩展,无需推倒重来。在当下众多企业还在为“卡间互联”和“集群通信”头疼时,联想的AI Agent技术式自动化拓扑发现能力,让部署者只需标准化机房环境即可快速组网。

此外,问天超节点在功耗与散热方面的设计同样体现专业深度。40张GPU满载功耗接近万瓦级别,传统风冷根本无法应对。联想通过液冷背板与风冷混合方案,将单节点功率密度控制在可接受的范围内,同时兼容标准19英寸机箱。这意味着企业无需改造现有数据中心机柜就能直接部署——这正是企业数字化转型过程中最需要的“零门槛”升级路径。

集群训推加速与芯模编译:V5.0平台的“双引擎”升级

如果说硬件是骨架,那么软件平台就是灵魂。联想同步推出的万全异构智算平台V5.0,重点围绕“集群训推加速”和“芯模编译优化”两大技术进行升级,试图解决大模型落地时“显存不够用、算力跑不满”的普遍痛点。

集群训推加速技术采用分层解耦PD分离架构,将训练阶段的参数更新(Data)与模型推理(Inference)在物理层面进行隔离,避免两者互相抢占显存和计算资源。同时引入KV Cache共享缓存优化——在推理阶段,多次计算中重复出现的键值对会被缓存复用,从而将单个token的生成时间缩短30%以上。这种设计对长文本生成场景(如AI画图中的提示词扩展)有着立竿见影的效果。

芯模编译优化技术则是针对异构GPU生态的“万能适配器”。目前市面上主流的训练框架(PyTorch、TensorFlow、MindSpore等)各自有不同的算子库和内存管理策略,不同厂商的GPU(NVIDIA、AMD、华为昇腾等)计算图编译方式也迥异。V5.0平台通过自动匹配计算图并动态生成最优算子,实现了模型在不同芯片间的“无缝迁移”。这里特别值得一提的是,技术团队引入了“计算图自适应剪枝”算法——对模型中冗余或低效的计算路径进行实时精简,在保持精度的前提下将训练效率提升15%~20%。

当然,V5.0平台的价值不仅限于技术指标,更在于它构建了一个开放的生态底座。早期用户常抱怨大模型训练需要大量手动调优,现在平台内置了自动化配置模板,用户只需输入模型名称和期望精度,系统就会自动生成最优分布式策略。这对于缺乏AI顶尖人才的普通企业而言,无疑是降低AI技术使用门槛的重要一步。

从单点突破到万卡协同:联想算力方案如何重塑AI基础设施

纵观整个发布会,联想并非在单纯展示一款“跑分机器”,而是在构建一套从芯片到集群、从开发到运维的全栈AI基础设施方案。问天超节点的高密度计算能力,配合V5.0平台的智能调度,有望将当前大模型训练所需的数周时间压缩到数天甚至更短。

尤其值得关注的是万卡级集群协同中“通信瓶颈”的破解之道。传统以太网RoCE方案在万卡规模下的丢包率和延迟抖动严重,而InfiniBand方案成本过高且生态封闭。联想采用的是一种自研的“自适应路由+拥塞控制”算法,在标准以太网硬件上实现了接近InfiniBand的通信效率。根据实验室数据,在4096卡规模的测试中,集群的线性加速比达到0.92以上(理想值为1.0),这意味着几乎不存在通信开销导致的算力浪费。

这种能力对于AI原生企业具有致命吸引力——它们不必为了构建超大规模集群而进行数据中心级别的改造,只需采购标准机架,利用AI工具导航就能快速上线。联想还同步推出了“一栈式交付”服务,从机房勘测、布线规划到安装调试均在48小时内完成。这种“开箱即用”的体验,正在消除中小型科技产品公司进入大模型领域的物理门槛。

从更宏观的视角看,联想此次发布的AI技术方案,折射出整个行业从“云原生”向“AI原生”迁移的趋势。传统云计算注重弹性伸缩和资源池化,而AI原生基础设施需要的是确定性延迟、高带宽互连和显存就近访问。联想问天超节点的“无线缆正交直插”设计,本质上就是为AI应用量身定制的数据中心连接方式。可以预见,未来两年内类似架构将成为服务器主流形态之一。

AI算力平民化:联想的野心与隐忧

尽管问天超节点的技术参数令人印象深刻,但联想面临的挑战同样不容回避。首先是芯片供应链风险:当前40卡方案默认搭载的是NVIDIA H100/H200系列,一旦美国进一步收紧出口管制,依赖单一供应商将导致大规模交付中断。为此联想已开始布局国产GPU适配计划,万全异构智算平台5.0的芯模编译技术正是为了兼容更多芯片而研发的。

其次是市场接受度问题:虽然大企业追求极致性能,但对大多数中小企业来说,单节点40卡的配置过于昂贵且存在算力浪费。联想在方案中提供了32卡下探配置,但依然需要说服客户“为未来买单”。不过,考虑到AI模型参数规模仍在增长(已有研究提出100万亿参数模型的可能性),当前配置可能并非“过剩”,而是“刚好满足未来3~5年需求”。

另一个值得思考的角度是:算力密集化会不会导致AI研发进一步向头部企业集中?联想提出的“万卡集群”方案对于初创公司仍然遥不可及。但反过来看,AI图片生成抠图等轻量级AI应用完全可以在低算力节点上运行,因此联想方案本质上是在为“重量级玩家”提供工具。

从战略层面观之,联想此次发布绝非简单的产品迭代,而是一次对AI基础设施商业模式的重新定义。不再将服务器视为通用计算设备,而是将其作为“大模型工厂”的核心部件来设计。如果联想能够成功将问天超节点打造成一个开放的生态平台,那么它将有机会在万亿级AI市场中获得真正的“入场券”。

FAQ

什么是问天超节点算力解决方案?

问天超节点是联想发布的面向大模型训练与推理的GPU集群服务器方案,单节点最多可搭载40张GPU,FP8算力超28 PFLOPS,HBM显存达5.76TB,采用无线缆正交直插架构,支持从32卡到万卡集群的灵活扩展。该方案旨在破解万亿参数模型的训练瓶颈,是AI新闻领域近期最受关注的基础设施产品之一。

联想问天超节点与英伟达DGX系列的差异是什么?

联想问天超节点与英伟达DGX系列均面向大模型训练,但存在明显差异:联想方案更强调“开放兼容”,采用标准19英寸机箱并适配多元GPU生态,通过芯模编译技术实现跨芯片支持;而DGX采用NVLink专有互联和自有系统设计,封闭生态但性能表现更极致。联想的设计思路更适合注重长期成本控制和国产替代需求的企业。

问天超节点对中小企业的AI开发有何实际影响?

虽然单节点40卡配置价格较高,但联想提供了32卡入门配置以及按需横向扩展能力,中小企业可以在初期仅购买少量节点用于模型微调或小规模推理。配合万全异构智算平台5.0的自动化部署工具,团队无需精通分布式系统即可快速启动训练。这有助于降低AI技术门槛,推动更多科技产品公司利用AI技术进行业务创新。

标签

AI新闻, 联想, 大模型训练, GPU服务器, 算力基础设施