来源:编译自IEEE
本周,超过3万人涌入加州圣何塞,参加英伟达全球技术大会(Nvidia GTC),这场被誉为“人工智能超级碗”的盛会——这个绰号或许是英伟达自己起的,也或许不是。在大会主会场,英伟达首席执行官黄仁勋登台宣布(除其他事项外)一系列新一代Vera Rubin芯片,这对于这家GPU巨头来说尚属首次:一款专为处理人工智能推理而设计的芯片。这款名为Nvidia Groq 3的语言处理单元(LPU)融合了英伟达去年圣诞节前夕以200亿美元从初创公司Groq获得授权的知识产权。

“人工智能终于能够从事生产性工作了,因此推理能力的转折点已经到来,”黄仁勋对在场听众说道。“人工智能现在必须思考。为了思考,它必须进行推理。人工智能现在必须行动;为了行动,它必须进行推理。”
训练和推理任务对计算资源的需求截然不同。训练可以同时处理海量数据,耗时数周,而推理则必须在用户提出查询后立即运行。与训练不同,推理不需要运行成本高昂的反向传播算法。对于推理而言,低延迟至关重要——用户期望聊天机器人能够快速响应,而对于需要思考或推理的模型来说,在用户看到输出结果之前,推理过程往往已经运行多次。
过去几年,专注于推理的芯片初创公司经历了类似寒武纪大爆发的局面,不同的公司探索着不同的方法来加速推理任务。这些初创公司包括:采用数字内存计算的D-matrix ;采用用于Transformer 推理的ASIC 芯片的Etched ;采用神经形态芯片的RainAI;采用模拟内存计算的EnCharge ;采用对数运算以提高 AI 计算效率的Tensordyne ;以及采用针对张量运算而非向量矩阵乘法优化的硬件的FuriosaAI等等。
去年底,英伟达宣布与Groq达成合作协议,似乎已经从众多推理芯片中选出了佼佼者。仅仅两个半月后,英伟达Groq 3 LPU便正式发布,凸显了推理市场蓬勃发展的紧迫性。
内存带宽和数据流
Groq 的加速推理方法依赖于芯片上处理单元和存储单元的交错排列。它没有采用位于GPU旁边的高带宽内存 (HBM) ,而是利用集成在处理器内部的SRAM内存。这种设计极大地简化了芯片内的数据流,使其能够以精简的线性方式进行。
“数据实际上是直接流经SRAM的,”马克·希普斯在2024年的超级计算大会上说道。当时希普斯是Groq的首席技术推广官,现在是英伟达的开发者营销总监。“当你观察多核GPU时,你会发现很多指令需要先发送到芯片之外,进入内存,然后再返回芯片。而我们不需要这样做。所有数据都是以线性顺序流经的。”
使用 SRAM 可以实现极快的线性数据流,从而满足推理应用所需的低延迟。“LPU 专门针对这种极低延迟的令牌生成进行了优化,”英伟达超大规模和高性能计算副总裁兼总经理Ian Buck表示。
将 Rubin GPU 和 Groq 3 LPU 并排比较,可以明显看出它们之间的差异。Rubin GPU 拥有高达 288 GB 的 HBM 显存,能够以每秒 50 千万亿次浮点运算 (petaFLOPS) 的速度进行 4 位运算。而 Groq 3 LPU 仅配备 500 MB 的 SRAM 内存,能够以每秒 1.2 千万亿次浮点运算 (petaFLOPS) 的速度进行 8 位运算。另一方面,Rubin GPU 的内存带宽为每秒 22 TB,而 Groq 3 LPU 的内存带宽高达每秒 150 TB,速度是其七倍。这种精简且以速度为导向的设计,正是 Groq 3 LPU 在推理方面表现卓越的原因。
这款新型推理芯片凸显了人工智能应用的持续趋势,即计算负载从构建规模越来越大的模型转移到大规模使用这些模型。“英伟达的发布验证了基于SRAM架构的大规模推理的重要性,而d-Matrix在SRAM密度方面无人能及,”d-Matrix首席执行官Sid Sheth表示。他认为,数据中心客户需要多种处理器来进行推理。“最终胜出的系统将结合不同类型的芯片,并能与GPU轻松集成到现有数据中心中。”
仅用于推理的芯片可能并非唯一解决方案。上周晚些时候,亚马逊网络服务 (AWS)宣布将在其数据中心部署一种新型推理系统。该系统结合了 AWS 的 Tranium AI 加速器和Cerebras Systems 的第三代计算机 CS-3 ,后者基于迄今为止最大的单芯片构建。这套两部分组成的系统旨在利用一种名为推理分解的技术。它将推理过程分为两部分:处理提示信息(称为预填充)和生成输出(称为解码)。预填充本质上是并行的、计算密集型的,并且不需要太多的内存带宽。而解码则是一个串行过程,需要大量的内存带宽。Cerebras通过在其芯片上构建了 44 GB 的 SRAM ,并通过 21 PB/s 的网络进行连接,最大限度地解决了内存带宽问题。
英伟达也计划在其名为Nvidia Groq 3 LPX的新型组合计算托盘中利用推理分解技术。每个托盘将容纳8个Groq 3 LPU和一个Vera Rubin,后者将Rubin GPU与Vera CPU相结合。解码过程中的预填充和计算密集型部分由Vera Rubin完成,而最后一部分则由Groq 3 LPU完成,从而充分利用每个芯片的优势。“我们现在已经开始量产了,”黄仁勋说道。
推理成为下一个人工智能芯片战场
Cambrian AI Research 的创始人兼首席分析师 Karl Freund 表示,推理与训练在经济效益和性能要求方面存在根本差异。训练 AI 模型是一项成本支出,而推理则是一项“利润中心”,能够直接产生收入。
Freund 和 Kimball 指出,虽然 GPU 性能卓越,但它们通常采用针对训练优化的架构特性,这些特性在纯推理应用场景中并不总能转化为更低的延迟或更高的效率。专用的推理芯片——ASIC 和其他加速器——可以提供更快的响应速度、更高的能效和更低的总体拥有成本。
弗罗因德说:“作为利润中心,如果你的延迟低,你就能创造更多收入,因为人们希望尽快得到响应,而你也希望以尽可能低的成本获得响应。”
分析师表示,GPU(以英伟达为绝对主导,AMD紧随其后)在大型训练和推理领域占据主导地位,并将继续在最大规模的工作负载中保持领先地位。然而,推理需求的激增正在创造GPU以外的机遇,尤其是在主流企业今年将规模从试点扩展到生产阶段之际。
“你会看到一些规模较小的公司,它们的员工人数可能只有一万人左右,而不是十万人,开始在生产制造、后台办公、前台运营以及边缘计算等领域应用人工智能,”金博尔说道。这些公司面临着电力限制、散热难题以及持续的GPU供应挑战,使得在许多环境下构建GPU密集型集群变得不切实际。
“部署GB200或H100这类设备时,功率都在千瓦级,”金博尔指出。“零售环境的电力预算有限,散热条件也不好,所以不可能运行一整机架的GPU。你得寻找其他替代方案。”
对于规模较小的公司,例如拥有100家分行的银行,总体拥有成本和功耗预算是首要考虑因素,这为专注于推理技术的初创公司提供了满足其需求的机会。“芯片初创公司在这方面拥有巨大的发展机遇,”金博尔说道,“它们能够满足现有厂商无法满足的客户需求,这些需求可能是由于产品供应不足,也可能是由于特定的性能和功耗要求。”
Freund表示,虽然GPU目前仍然是推理的最佳通用解决方案,但市场正在转向ASIC以及AWS、谷歌和初创公司等提供的替代架构。
根据 Futurum Group 2025 年 11 月的一项调查,到 2025 年,GPU 占数据中心计算支出的 58%;到 2026 年,XPU(既不是 GPU 也不是 CPU 的处理器,例如 ASIC 和定制加速器)预计将以 22% 的增长引领增长,超过 GPU (19%) 和 CPU (14% )。
“随着推理工作负载在令牌输出方面超过训练工作负载的总量,对多样性的需求将会更大,因为替代的 XPU 架构可以在某些特定的推理任务上实现更高的效率,”Futurum Group 半导体、供应链和新兴技术研究总监 Brendan Burke 表示。
AWS 的案例表明了这种日益增长的需求。AWS 技术总监 Shaown Nandi 表示,这家超大规模数据中心支持 Nvidia、AMD 和 Intel 的芯片用于 AI 工作负载,同时还提供定制芯片,为客户提供更多选择。Nandi 补充道,许多客户倾向于使用 Nvidia 芯片来优化基于 CUDA 的模型,而其他客户则越来越多地选择AWS 的 Trainium 芯片 ,因为它具有更高的性价比和效率。
他解释说:“它们的需求量都非常大。Bedrock(AWS 的推理服务)上超过 50% 的代币都运行在我们的 Trainium 芯片上。”
英伟达已经意识到对专用推理处理器的需求。2024年,高管们表示,其数据中心约40%的收入将来自推理业务。2025年9月,英伟达发布了Rubin CPX,这是一款专为超大规模和大型企业部署中的大规模上下文推理而设计的GPU,尤其适用于解码前的预填充阶段。据报道,英伟达与Groq达成的授权协议旨在将快速、低延迟、低成本的推理技术集成到其AI工厂架构中;CNBC报道称,英伟达计划采用Groq的低延迟处理器来支持更广泛的实时推理。
除了计划收购 SambaNova 之外,英特尔还在探索多种推理方案。该公司已在其至强 CPU 中集成 AMX 加速器,并提供专用于推理工作负载的 Gaudi AI 加速器。“如今,许多推理任务都在 CPU 上完成。未来,许多推理任务仍将在 CPU 上完成。”金博尔说道。
AMD 在收购 Untether AI 的工程团队后,于 2025 年 11 月收购了推理初创公司 MK1。MK1 开发软件,可优化 AMD GPU,以便在大规模企业部署中进行高速推理和推理。
Freund 在 2025 年 12 月的一篇博客文章中表示,谷歌最新的 TPU 芯片将成为推理领域的有力竞争者,而高通即将推出的 AI200 和 AI250 芯片有望提供巨大的内存容量和更低的成本,可能成为极具吸引力的数据中心选择。
推理机会涵盖数据中心和边缘计算,而具体要求则因工作负载和部署方式而异。“你在自动驾驶汽车中进行的推理与你作为在线客服机器人进行的推理截然不同,”金博尔说道。
Tirias Research首席分析师Jim McGregor指出,推理机会存在于所有进行计算的地方,包括智能手机、个人电脑和汽车。“没有两个工作负载是完全相同的,但我们将会看到针对不同工作负载的多种不同类型的AI加速器,”他说道。“市场仍处于早期阶段,仍然有很大的发展空间,足以容纳众多供应商。”
Freund 预测,到 2026 年,大多数推理仍将在数据中心运行,而不是在边缘运行。
数据中心推理领域的竞争者包括Cerebras和 Tenstorrent。Cerebras 成立于 2015 年,大约一年前开始在其晶圆级芯片上提供推理功能。Cerebras 产品与战略高级副总裁 Andy Hock 表示,其系统可以通过软件在训练模式和推理模式之间切换,目前约 70% 的工作负载集中在推理方面。训练仍然是该公司收入的主要来源。
Tenstorrent 成立于 2016 年,由曾参与设计 AMD Zen 架构的 Jim Keller 领导,该公司正在构建基于 RISC-V 的 AI 推理处理器。
韩国的NPU(网络处理单元)体现了从边缘到数据中心的多元化发展。金博尔表示, FuriosaAI以其高效节能的NPU架构和LG等重要客户而闻名。据报道,该公司在2025年拒绝了Meta的收购要约。另一家韩国初创公司Rebellions则以其基于ARM的技术以及来自ARM和三星风投的大量投资而著称。
初创公司也在着手解决影响推理性能的关键内存和网络瓶颈问题。开发 RISC-V 芯片设计的 SiFive 公司于 2025 年 9 月推出了第二代 Intelligence 系列协处理器,旨在最大限度地降低其 AI CPU 的内存延迟。NeuReality 公司于 2025 年 9 月推出了 NR2 AI-SuperNIC,这是一款支持超以太网联盟 (Ultra Ethernet Consortium) 规范的网络接口卡,可用于横向扩展计算。d-Matrix 公司开发的内存解决方案,据 Freund 称,其运行速度比高带宽内存快四倍,成本更低。
市场展望
分析师预计英伟达将在训练和推理领域保持主导地位,但多样化的需求为专业解决方案提供了抢占市场份额的空间。麦格雷戈对快速技术变革背景下初创企业的前景持谨慎态度,并预计会出现更多整合。虽然Groq取得了成功,但其他早期初创企业却举步维艰。麦格雷戈指出,除了AMD收购Untether AI和软银收购Graphcore之外,SambaNova此前获得11亿美元融资,如今以16亿美元的价格出售,与其说是“贱卖”,不如说是“甩卖”。
GPU之所以仍然占据主导地位,是因为它用途广泛且功能多样。“这就是GPU依然称霸的原因。它是可编程的,”麦格雷戈说。“你可以修改它,将其拆分,并同时运行多个模型。”
Kimball提出了不同的观点,他预测主流企业将在2026年采用这项技术,从而释放对以推理为中心的初创公司的需求。“当推理市场真正成熟时,这些初创公司将会发展得更好,”他说道。他预计通用推理芯片和专业垂直解决方案都将迎来发展机遇。
金博尔表示,总体而言,专用推理芯片的优势——成本更低、功耗更低、性能更强——创造了巨大的机遇。目前这批初创企业能否抓住这些机遇还有待观察。“这是一个充满活力、蓬勃发展的创业环境,”他说道,“这里蕴藏着巨大的机遇,创新层出不穷,而现在还处于起步阶段。”

标签: 点击: 评论: