闪迪新专利将NAND闪存堆叠在计算芯片下方,AI时代存储效率提升的关键突破
图片来源:AI生成

在高性能计算与AI技术飞速发展的今天,存储瓶颈已成为制约系统整体效率提升的关键因素。闪迪最新公布的专利(US 12,430,274 B2)提出将NAND闪存直接堆叠在计算芯片下方,通过宽通道互联实现大容量、低延迟的数据存取,这一架构有望彻底改变现有存储范式,为AI时代的算力需求提供新思路。与传统方案相比,该专利将NAND闪存从“侧边”移至芯片下方,本质上重塑了计算与存储的物理关系,让效率提升不再停留在纸面上。

AI算力狂飙下的存储困局

人工智能大模型的崛起对算力的需求呈指数级增长。从GPT-4到Sora,每一次模型迭代都需要更庞大的训练数据和更复杂的推理过程,这直接倒逼计算芯片疯狂堆叠算力单元。然而,算力提升的背后,存储子系统却频频“拖后腿”。当前主流的DRAM(特别是高带宽内存HBM)虽然带宽极高,但单堆容量仅32~64GB,且受制于工艺良率和产能短缺,价格居高不下。更重要的是,HBM只能放置在计算芯片的周边,数据从HBM到GPU需要经过中介层走线,传输延迟虽然极低但仍然存在物理上限。

与此同时,NAND闪存凭借单位存储成本低、单盘容量大的优势,在大规模数据持久化存储中占据主流。但NAND距离计算核心更远——通常通过PCIe总线连接到CPU或GPU,数据传输速度远不及DRAM,延迟也高出几个数量级。对于大模型训练这类需要频繁读写海量参数的任务,这种延迟差距意味着GPU常常处于等待状态,整体效率提升受到严重制约。

现有科技产品在应对这一矛盾时,只能采取折中方案:要么使用昂贵的HBM堆叠来维持带宽,但容量受限;要么使用大容量NAND,但必须承受更慢的读写速度。这种“鱼与熊掌不可兼得”的局面,让整个AI行业都在呼唤一种全新的存储架构。

闪迪新专利将NAND闪存堆叠在计算芯片下方,AI时代存储效率提升的关键突破配图
图片来源:AI生成

闪迪的破局之道:HBF高带宽闪存初探

在正式推出颠覆性专利之前,闪迪其实已经铺垫了一条技术路径——高带宽闪存(HBF)。HBF的核心理念是借鉴HBM的分层架构,将多层NAND闪存垂直堆叠,并通过硅通孔(TSV)在各层之间建立密集互联。这样一来,NAND闪存也能获得类似HBM的高带宽特性。单堆HBF的容量最高可达4TB,远超HBM的32~64GB,完美解决了容量不足的问题。

HBF虽然填补了容量与带宽之间的空白,但它本质上仍是NAND闪存,距离计算核心依然很远。在那些对延迟极其敏感的场景(如AI推理中的实时响应),HBF的读写延迟仍高于DRAM。而且HBF本身也需要独立的控制器和接口,增加了系统复杂度和功耗。

闪迪显然不满足于HBF带来的渐进式改进。专利US 12,430,274 B2所描述的架构,则是一次彻底的空间革命——将NAND闪存直接塞进计算芯片的正下方,彻底消除物理距离导致的延迟。这一大胆构想,让AI工具导航中许多前沿应用得以摆脱存储束缚。

终极方案:计算芯片正下方的NAND闪存堆叠

新专利的核心在于一种3D堆叠架构:将搭载CMOS键合阵列(CBA)的NAND闪存存储裸片,直接堆叠在主计算裸片的下方。这里的主计算裸片可以是AI加速器、GPU,甚至是未来的专用AI处理器。这些存储裸片通过硅通孔和微凸点与上方的计算裸片垂直互联,形成一种“计算在上、存储在下”的三明治结构。

更巧妙的是,这个整体依然固定在一块中介层上,中介层上还可以同时搭载多组HBM DRAM堆叠。也就是说,闪迪并没有抛弃HBM,而是让它扮演“高速缓存”的角色,而正下方的NAND则负责“大容量主存”。这种设计充分利用了NAND的低成本、大容量优势,同时又通过垂直堆叠缩短了与计算芯片的距离,使NAND的读写带宽成倍提升。

对于从事AI画图文生图的创作者来说,这意味着未来在本地生成高清图片时,模型参数和中间数据可以快速从NAND加载,而不必频繁等待磁盘I/O。同样,抠图背景去除这类需要实时处理的图像任务,也能获得更流畅的体验。

全新分工:HBM与NAND闪存各司其职

闪迪的专利不仅是一种物理堆叠,更定义了一种全新的存储层级分工。HBM DRAM负责处理低延迟、高优先级的即时读写任务,比如AI推理中的权重更新和临时变量。而堆叠在芯片下方的NAND闪存裸片,则承担大容量数据读写操作,例如训练数据集的批量加载、模型快照的持久化等。

这种分工背后的逻辑是:大多数AI工作负载其实拥有很强的“局部性”和“重复性”。大部分数据在一次训练迭代中只需要被读取一次或少量几次,完全没必要全部放在昂贵的HBM中。将冷数据或次热数据下沉到NAND,让HBM专注于热数据,可以大幅降低对HBM容量和数量的需求,从而控制整机成本。

计算核心由多核处理器(如GPU或AI处理器)与高带宽、大容量非易失性存储直连集成。非易失性存储由CMOS键合阵列(CBA)存储裸片组成,该裸片整合了单片大容量NAND存储层与CMOS逻辑电路层。集成后的处理器与CBA存储裸片共同固定在中介层之上。计算核心还可在处理器与CBA存储裸片的单侧或多侧周边,于中介层上搭载多组HBM半导体堆叠裸片。这套架构可以说是一次性解决了容量、带宽、延迟和成本四大痛点,显著提升了系统的整体效率提升水平。

值得一提的是,这种分工对于AI诗词古诗词生成等文本生成任务同样有利——模型参数和词汇表可以存储在堆叠NAND中,HBM仅需缓存当前上下文,使得低成本设备也能运行大规模语言模型。

宽通道互联:低延迟、低成本、低功耗的秘密

闪迪专利中最具技术壁垒的部分,在于裸片间的宽通道互联方案。传统NAND闪存通过PCIe或NVMe协议连接,带宽通常在1~8 GB/s量级。而在3D堆叠架构中,计算裸片与NAND存储裸片之间通过成千上万个硅通孔(TSV)直接相连,每个TSV都可以作为一个独立的通道,总带宽可达数百GB/s甚至更高。

这种宽通道互联带来的第一个好处是延迟的骤降。由于物理距离缩短到数百微米级别,信号传输时间从微秒级降至纳秒级,基本消除了传统NAND的访问延迟。第二个好处是功耗降低——信号无需穿越长距离的PCB走线和连接器,减少了额外的驱动能耗。第三个好处是成本优势:NAND的单位存储成本远低于HBM,用NAND替代部分HBM可以显著降低整机BOM。

然而,这种架构也带来了工程上的巨大挑战。首先,多种芯片堆叠后的散热问题必须解决:计算芯片功率密度极高,NAND闪存对温度又比较敏感,需要设计精巧的热管理方案。其次,单封装同时集成NAND和DRAM会导致制造复杂度飙升,良率和成本都是拦路虎。闪迪在专利中给出了详细的裸片间布线方案,构建了一道难以复刻的技术护城河。

对于普通用户和开发人员而言,虽然短期内无法直接接触到这类硬件,但可以借助AI工具导航了解当前支持的软件生态。同时,艺术签名签名设计等创意工具背后的图像生成模型,未来也可能受益于这种存储架构带来的性能提升。如果您对更多效率工具感兴趣,不妨试试AI工具箱来探索各类应用。

从专利到量产:闪迪的长期战略与行业挑战

尽管专利方案令人振奋,但必须清醒认识:这目前还停留在实验室纸面上。从专利到可以量产的科技产品,闪迪需要攻克整机功耗控制、封装良率、以及软件栈适配等一系列工程难题。当前行业内标准化的成熟产品,仍然采用技术门槛更低、已实现商用的“侧边并置”方案。

不过,闪迪这一步棋的深层意图值得玩味。专利本身构建了极高的技术壁垒,尤其是裸片间宽通道互联和跨裸片布线方案,其他厂商想要复刻难度极大。这等于闪迪为未来的存储架构预先铺好了专利护城河,无论它自己最终能否量产,都能通过授权或交叉许可获得战略优势。

从行业视角看,这种计算与存储深度融合的趋势,与AI Agent技术的发展方向不谋而合。未来的AI Agent需要实时处理大量多模态数据,对存储的容量和访问速度提出更高要求。闪迪的方案如果成功落地,将极大推动企业数字化转型中AI基础设施的升级。而昵称生成游戏ID等轻量级应用虽然不需要如此极致的存储,但底层硬件效率提升的普惠效应最终会传导到所有层级的应用。

总而言之,闪迪的这份专利是一份长期战略蓝图,它揭示了一个清晰的趋势:未来的高性能计算系统,存储将不再是附属在外围的“外设”,而是与计算单元深度融合的“身躯”。谁能在这种融合中掌握核心堆叠技术和互联方案,谁就能在AI时代的硬件竞赛中占据制高点。