热设计网

深度解读英伟达芯片路线图

热设计

来源半导体行业观察


在 GPU 加速应用程序性能的早期——实际上从 2012 年 5 月的“开普勒”数据中心 GPU 到 2017 年 5 月的“伏特”——英伟达,这家全球最重要的科技公司,也是 GenAI 革命中硬件和系统软件的绝对主导供应商,在发布路线图方面做得非常出色。

但在2021年之前的几年里,英伟达一直把产品路线图折叠起来,放在联合创始人兼首席执行官黄仁勋皮夹克左前内袋里。随着人工智能时代(GenAI)的蓬勃发展从化学领域转向核能领域,英伟达敏锐地意识到,在各方都在努力协调资金、土地、电力、冷却和系统,以构建IT市场有史以来规模最大的基础设施建设之际,每个人都需要一份真正意义上的路线图,最好是未来几年的规划路线图。第一份这样的新时代路线图于2023年底发布,并非黄仁勋在GTC大会上展示的幻灯片,而是在一份财务报告中。我们对这份路线图进行了大量的编辑,添加了缺失的组件,例如一些GPU和DPU,并在各列中修正了正确的年份。但我们始终感激英伟达能够清晰地展现其现状和未来发展方向。我们收集了2021年至2023年间所有能找到的路线图,并将它们整理到这篇文章中,供您参考。

2023年10月发布的路线图也让我们首次了解到英伟达为其人工智能系统组件制定的年度更新计划。在这份2023年末的路线图中,2025年的产品被命名为GX200、GX200NVL、X100和X40,这让我一度以为他们会沿用游戏产品线的“Xavier”代号,但我们也承认“X”可能是一个变量。最终,2025年的产品被证实是黄仁勋在2024年6月台北国际电脑展上详细介绍的“Blackwell”GPU,而我们现在看到的路线图样式已经多次更新了。(对于我们这些上了年纪的人来说,字体可能有点小,所以你可能需要眯着眼睛才能看清。)

英伟达在2024年6月公布了其到2027年的数据中心发展路线图,当时我们首次了解到了“Vera”CV100 Arm服务器CPU和“Rubin”R200 GPU加速器。随后,黄仁勋在去年的GTC大会上又公布了到2028年的数据中心发展路线图。

在 2026 年 GTC 大会上,黄仁勋补充了 2026 年至 2028 年期间的一些技术细节,但他没有谈到未来可能推出的“Feynman Ultra”GPU,以及更新的 ConnectX-10 SmartNIC,甚至可能还有更新的 Groq LPU,这些产品也可能在当年推出。

英伟达在训练方面占据绝对优势,并且在推理方面也具备竞争力。

这些路线图对于将英伟达技术转化为运行人工智能训练和推理系统的原始设备制造商 (OEM) 和原始设计制造商 (ODM) 至关重要,这些系统服务于全球绝大多数用户。对于客户而言,路线图同样重要,因为我们都知道,客户会投资于路线图,而不仅仅是购买单个产品。尽管人工智能计算引擎和网络领域经历了前所未有的爆发式增长,竞争异常激烈,但英伟达目前仍占据着绝对的市场份额,并且在未来许多年内仍将保持这一优势。至于未来能持续多久,我们拭目以待。

如果你粗略估算一下(你知道我喜欢这么做),根据IDC和Gartner有限的数据,2025年服务器市场总规模将在4200亿美元到4500亿美元之间,其中约1900亿美元的系统物料成本将作为收入流向英伟达。此外,OEM和ODM厂商销售的、至少安装了英伟达GPU(很可能还安装了更多组件)的机器,在2025年的收入可能在2750亿美元到3250亿美元之间。这意味着基于英伟达技术的机器在整个系统市场中的份额将达到61%到77%左右。要想获得更精确的估算,我们需要使用量子概率分布(你应该笑一笑),或者查看所有公有和私有服务器制造商的财务数据并进行汇总。

我想重点是,人工智能系统几乎所有的利润都流向了英伟达,其毛利润、营业利润和净利润都清楚地表明了这一点。

真是太棒了。

这就引出了黄仁勋在GTC主题演讲中提出的2026年路线图:

image.png

这一次,除了计算和网络引擎的演进之外,“Oberon”和“Kyber”机架的演进也被明确地提及。

您还会注意到,Quantum InfiniBand 没有被提及,这并不是因为英伟达停止了对 InfiniBand 的开发,而是因为英伟达并不期望 AI 工厂部署 InfiniBand,即使在某些情况下,运行较小集群的 HPC 中心甚至一些 AI 中心可能会选择它。

此外,正如我们在之前对黄仁勋主题演讲的报道中所指出的,去年九月发布的“Rubin”CPX长上下文和衰减处理引擎并未列入路线图。Rubin CPX原计划于今年年底交付,用于处理100万个词元或以上的AI上下文窗口,并辅助生成图像模型(而非文字模型)的视频。现在就断言CPX将无法胜任此类工作负载可能还为时尚早。事实上,我们可能会看到Nvidia CPX和Groq LPU计算引擎的组合来处理这两种推理任务——而Vera-Rubin计算复合体则不会参与其中。(Nvidia并未如此表态,但这是我的推测。)

Vera-Rubin 系统已准备就绪,将于 2026 年下半年按计划进行批量出货。Vera Arm 服务器 CPU 拥有 88 个定制的 Nvidia “Olympus” 核心,每个核心支持两个线程,并配备 1.8 TB/秒的 NVLink 芯片间互连,可作为一个或多个“Rubin”R200 GPU 加速器之间的高速连接。正如我们去年所知,Rubin 由两个光刻胶大小的 GPU 芯片组成,通过 NVLink C2C 端口连接在单个插槽内,配备 288 GB HBM4 显存,其张量核心可提供 50 petaflops 的 FP4 性能,相比之下,“Blackwell”B200 为 10 petaflops,B300 为 15 petaflops。这些 B200 和 B300 GPU 配备 288 GB HBM3E 堆叠式显存。预计 Rubin 将采用台积电的 3 纳米 N3E 或 N3P 工艺进行蚀刻。据我们所知,Oberon 机架式服务器将采用与 Blackwell 架构的 B200 和 B300 相同的 NVL72 机架式系统,配备 72 个 GPU 插槽和 36 个 CPU 插槽。(英伟达曾一度将这些服务器称为 NVL144,因为他们统计的是 GPU 芯片的数量,而不是插槽的数量,这不仅让自己感到困惑,也让不少客户感到困惑。)

与 Vera 和 Rubin 一样,Groq LP30 将采用专用机架包装,并配备标准的 Spectrum 以太网主干网(有时也称为背板)。据我们所知,该以太网主干网未使用带有共封装光器件的 Spectrum-6 ASIC,但它可能在主干网中使用光器件,并在 Groq 芯片引出的芯片间连接器中使用铜线。

Nvidia 将此称为 Oberon ETL256 配置,这意味着 256 个 Vera CPU 或 256 个 Groq LPU 可以连接到此背板。

今年推出的 Groq sleds ,每个sled有四个插槽,每个插槽装有八个 LP30 ,它们的外观如下:

image.png

一组LP30处理器机架被称为Groq 3 LPX系统,它包含32个滑橇,总共拥有315 petaflops的FP8推理计算能力,256个芯片上配备128 GB的SRAM,总SRAM带宽为40 PB/秒,Spectrum ETL背板上的总扩展带宽为640 TB/秒。(同样,目前尚不清楚这是移除CPO后的Spectrum-5还是Spectrum-6。我们怀疑是结构更简单的Spectrum-5。)

今年晚些时候,用户还可以将整架 Vera 服务器 CPU 集成到配备 ETL 主干网的 Oberon 机架中。(Meta Platforms 将成为这项技术的早期客户。)计算一下,每个机架单元 (sled) 可容纳 8 个 Vera CPU(可能是 4 个双向 Vera-Vera 节点),一个 Vera ETL 机架可容纳 32 个机架单元。这意味着总共有 256 个 CPU,22,528 个核心,512 TB 的主内存,以及 300 TB/s 的内存带宽。

image.png

想必这款机架会被命名为 Vera CPX 机架,其中 CPX 是 Compute Processing Rack(计算处理机架)的缩写(不要与 Rubin CPX 处理器混淆)。基于 BlueField-4 DPU 并运行来自十几个合作伙伴的各种分布式存储软件栈的存储机架被称为 BlueField STX 机架,类似地,Spectrum-6 交换机机架则被称为 Spectrum-5 SPX 机架。

或许在命名中加入“X”并不是个好主意。或许,它们应该分别叫做CPR、STX和SPR?命名很重要。它们都基于MGX模块化服务器架构,而MGX并非中东那家私募股权公司,该公司目前正为全球众多人工智能设施提供融资。

展望2027年,“Rubin Ultra”GPU(暂定名为R300)实际上只是将Rubin插槽内的GPU芯片数量从两颗增加到四颗,并提供100 petaflops的FP4性能。英伟达计划在新推出的“Kyber”机架中将插槽数量翻倍至144个,该机架将采用铜质中板,取代之前用于连接GPU插槽的数千根铜缆。英伟达将为这四颗Rubin GPU芯片配备16组HBM4E显存,总容量为1TB,读写速度为32TB/s。(理论上,HBM4E显存的读写速度可达64TB/s,我们不禁好奇英伟达为何降低了读写速度——或许是出于功耗和散热方面的考虑。)

我们来简单聊聊 NVLink 端口和 NVSwitch 内存互连技术。这两个名称最初出现的时间有点不一致,因为 2016 年随“Pascal” P100 GPU 一同推出的 NVLink 1.0 并没有交换机,而是使用网状互连技术在 Pascal GPU 之间共享内存。端口和交换机的命名与 Blackwell B300 GPU(我记得是这样)是同步的,之后芯片和端口的命名就保持一致了。例如:

image.png

NVSwitch 内存架构 ASIC 的增强方式有很多,但可以肯定的是,ASIC 的端口数(即基数)已经过低,我认为英伟达很有可能会开始考虑晶圆级 ASIC 设计,而不是芯片组设计。(仔细想想,他们甚至可能在未来的 Groq LPU 中也采用这种设计。)这些设计不必完全采用晶圆级,但这意味着要彻底消除所有芯片间的 C2C 互连,以及数据在芯片间通过 C2C 互连传输到相邻芯片时所需的所有缓冲。(我们认为,神秘的网络芯片初创公司 Eridu 已经在着手进行这项技术,而 Cerebras 也已经展示了它在并行计算方面的出色表现。)

简而言之,Rubin GPU 上的 NVLink 6 端口的带宽将比 NVLink 5 端口翻倍,达到 3,600 GB/秒,而 Rubin Ultra GPU 的带宽将再次翻倍,考虑到 Rubin 和 Rubin Ultra 之间的性能翻倍以及 HBM4 内存带宽几乎翻了三倍,这是理所当然的。

在 Rubin 系列产品中,Spectrum-6 以太网 ASIC 将采用共封装光器件,该系列 102.4 Tb/s 交换机也将支持 Rubin Ultra 系统的横向扩展网络需求。2027 年推出的 Rubin Ultra 产品线将采用 Groq LP35 芯片,该芯片将支持 NVFP4 格式的 FP4 浮点运算,从而与 Blackwell 和 Rubin GPU 的精度相匹配。2028 年,Rosa-Feynman 系统将搭载 Groq LP40 计算引擎,并为其添加 NVLink 端口,以便 Groq 引擎能够与 Rosa Arm 服务器 CPU(以诺贝尔奖得主、医学物理学家罗莎琳·萨斯曼·亚洛 (Rosalyn Sussman Yalow) 的名字命名,她开发了放射免疫分析法,用于检测血液或组织中微量化学物质)和 Feynman GPU(以著名物理学家和邦戈鼓演奏家理查德·费曼 (Richard Feynman) 的名字命名)保持内存一致性。

您将在路线图中看到,英伟达将在 2028 年为 NVLink 8 端口添加 CPO 功能,并且很可能也会在另一端的 NVSwitch ASIC 上添加 CPO 功能。虽然我们一直敦促计算引擎制造商在其设备上采用 CPO,但他们也可以在一端使用铜缆,另一端则使用采用 CPO 的多层交换机 ASIC 网络。两端都不需要采用 CPO。(英伟达在这张图表中似乎对 NVSwitch 和 NVLink 的使用比较宽泛,因此请注意。)我们认为 NVSwitch 的 CPO 功能很有意义,因为它将允许构建快速、高带宽的双层 NVSwitch 网络,从而为模型创建更大的 GPU 计算内存域。

Hopper GPU 的官方可扩展性为 8 个 GPU(采用内存链接),但非官方的可扩展性为使用两层网络时可达 256 个 GPU。Blackwell 的官方 GPU 内存域大小为 72 个 GPU,但理论上,通过多层 NVSwitch,可扩展至 576 个 GPU。Kyber 机架采用垂直滑槽设计,可容纳两倍数量的 GPU,并配备铜质背板,其机架级 GPU 域大小为 144 个 GPU。最终,随着 NVSwitch 8 CPO(我知道图表上写的是 NVLink 8 CPO)的推出,单个机架的 GPU 容量仍将保持在 144 个,但在多层网络(我们认为是两层网络,但如果不知道 NVSwitch 8 设备的基数,就无法确定)下,NVIDIA 的 GPU 域大小将达到 1152 个 GPU。

几十年前,Cray 超级计算机的机架内采用铜质背板,并通过路由器引出光纤链路连接各个机架。我们推测英伟达也会采取类似的策略。原则始终是:能用铜线就用铜线,必须用光纤才行,这既是技术原则,也是经济原则。但是,鉴于英伟达在人工智能系统投资中占据如此大的份额,如果说有什么工作负载能够推动 CPO(计算产品)的产量增长,从而降低单价,那一定是 GenAI 推理;如果说有什么公司能够推动这项工作并协调整个供应链,那也非英伟达莫属。有人可能会说,只有英伟达才能做到这一点,如果它做到了,所有系统都将从中受益。

16 倍以上的 GPU 插槽数量,再加上 Feynman GPU 预期带来的性能提升——英伟达只透露这一代芯片将采用芯片堆叠技术和定制 HBM 内存——将为 CPU-GPU 混合系统带来巨大的吞吐量提升。

如果芯片堆叠仅用于SRAM缓存(这相对容易实现),那么仍然可以在一个插槽中添加更多2D GPU核心。英伟达可能会在Feynman架构中采用2纳米或更小的工艺,这也意味着将采用全环栅极(GAA)晶体管和高数值孔径EUV工艺,同时由于芯片高度只能减半,最大光刻尺寸将从858平方毫米缩小到429平方毫米。因此,无论Feynman架构最终如何,它都将在一个插槽中至少容纳八个GPU芯片,而Rubin Ultra插槽中只有四个,并且利用工艺缩小来增加更多电路。

网站末尾图片.png

标签: 芯片元器件 点击: 评论:

留言与评论(共有 0 条评论)
   
验证码: