虎嗅

一颗折腾了十年的芯片

该文章尚未提供 Français 解读,以下为中文版内容。

核心内容总结

英伟达发布新一代AI服务器平台Vera Rubin,标志AI从“你问我答”的聊天机器人阶段,进入能自主拆解任务、执行计划的Agentic AI阶段。为解决Agent推理时的低延迟需求,英伟达引入Groq公司的LPU专用推理芯片,与GPU组成双芯片架构——GPU负责擅长的“理解输入”(Prefill),LPU负责快速生成回答(Decode)。LPU用片内高速存储SRAM绕过HBM、台积电CoWoS等供应链瓶颈,形成独特优势。同时,OpenAI也与Cerebras合作,说明行业巨头都在突破GPU在推理环节的局限。

一、AI从“问答工具”变“执行助手”,需求彻底反转

过去两年的AI是“一次性问答”:你输入问题,AI生成回答就结束。现在黄仁勋说这个阶段翻篇了,下一个是Agentic AI——AI像助手一样,能自己拆分任务(比如“帮我订明天去上海的机票并安排酒店”)、制定计划、调用工具(查航班、比价)、修正错误(如果机票售罄换时间)。这种AI需要实时响应,生成回答不能卡,对“吐词速度”和稳定性要求极高,而不是训练时的“蛮力算力”。

二、GPU在推理时“有力使不出”,问题出在“数据搬运”

训练大模型时,GPU是王者:它能并行处理海量数据,把模型“喂”出来。但推理(生成回答)分两步:

1. Prefill阶段:AI一口气读完你的输入,并行处理生成“对话记录”(KV cache),这步GPU很擅长,利用率90%以上;

2. Decode阶段:AI一个词一个词生成回答,每个词都要从显存(HBM)读取整个模型的权重,但计算量很小——就像请400人施工队只搬一块砖,399人站着等。GPU的计算核心大面积空转,瓶颈不是算力,是数据从显存到核心的搬运速度。

之前的优化(比如多个用户共享权重读取)只是“治标”,没解决GPU架构天生不适合“少计算、多数据搬运”的问题。

三、英伟达找了个“快得飞起”的搭档——LPU芯片

为解决Decode瓶颈,英伟达收购了Groq公司的LPU(语言处理单元)芯片。这颗芯片的“绝招”是:

  • 用SRAM代替HBM:SRAM是刻在芯片内部的高速存储,数据不用外接,速度是HBM的几十倍(相当于把仓库建在车间里,不用跑老远搬货);
  • 绕过供应链瓶颈:LPU不用HBM(被三星等垄断)、不用台积电CoWoS封装(产能排到2026年)、甚至不用台积电先进制程(用三星本土产线),完全不和GPU抢资源;
  • 稳定吐词:每生成一个词的时间几乎一样,不会突然卡壳——这对Agent的“连贯执行任务”至关重要。

Groq之前因为芯片互联问题无法量产,被英伟达收购后,四个月就解决了问题,把LPU放进了Vera Rubin平台。

四、GPU+LPU“分工干活”,效率提升35倍

英伟达设计了AFD架构,让GPU和LPU各司其职:

  • GPU管“注意力”:模型的“注意力机制”需要动态加载对话记录(KV cache),GPU的大显存和并行能力适合干这个;
  • LPU管“前馈网络”:模型生成每个词的固定计算部分(FFN),LPU的高速SRAM和确定性架构能快速完成。

两者像打乒乓球:GPU算完注意力传给LPU,LPU算完前馈网络传回GPU,循环40次(对应模型40层)生成一个词。软件还能重叠计算和通信,隐藏延迟。结果是:万亿参数模型下,每兆瓦算力的吞吐量提升35倍,每个词的成本降10倍——AI能以“思考速度”实时响应。

五、行业大趋势:大厂都在“补推理短板”

不止英伟达,OpenAI也在2026年初和Cerebras签了100亿美元合同。Cerebras走的是另一条路:把一整片晶圆直接做成芯片(比英伟达最大GPU大56倍),让数据在片内流动,减少跨芯片通信开销。

这说明:全球顶级AI公司都意识到,GPU在推理环节的局限已经成为Agent时代的“绊脚石”,必须引入专用芯片。而英伟达的优势在于,它拥有一条和GPU完全不竞争的推理供应链——不用抢HBM、台积电产能,这是对手(AMD、谷歌TPU)没有的结构性优势。

一句话总结:Agent时代,AI需要“能干活的速度”,英伟达用双芯片架构和独立供应链,抢下了下一波AI竞争的先机。