虎嗅

一颗折腾了十年的芯片

2026-06-10 阅读原文

该文章尚未提供 Français 解读，以下为中文版内容。

核心内容总结

英伟达发布新一代AI服务器平台Vera Rubin，标志AI从“你问我答”的聊天机器人阶段，进入能自主拆解任务、执行计划的Agentic AI阶段。为解决Agent推理时的低延迟需求，英伟达引入Groq公司的LPU专用推理芯片，与GPU组成双芯片架构——GPU负责擅长的“理解输入”（Prefill），LPU负责快速生成回答（Decode）。LPU用片内高速存储SRAM绕过HBM、台积电CoWoS等供应链瓶颈，形成独特优势。同时，OpenAI也与Cerebras合作，说明行业巨头都在突破GPU在推理环节的局限。

一、AI从“问答工具”变“执行助手”，需求彻底反转

过去两年的AI是“一次性问答”：你输入问题，AI生成回答就结束。现在黄仁勋说这个阶段翻篇了，下一个是Agentic AI——AI像助手一样，能自己拆分任务（比如“帮我订明天去上海的机票并安排酒店”）、制定计划、调用工具（查航班、比价）、修正错误（如果机票售罄换时间）。这种AI需要实时响应，生成回答不能卡，对“吐词速度”和稳定性要求极高，而不是训练时的“蛮力算力”。

二、GPU在推理时“有力使不出”，问题出在“数据搬运”

训练大模型时，GPU是王者：它能并行处理海量数据，把模型“喂”出来。但推理（生成回答）分两步：

1. Prefill阶段：AI一口气读完你的输入，并行处理生成“对话记录”（KV cache），这步GPU很擅长，利用率90%以上；

2. Decode阶段：AI一个词一个词生成回答，每个词都要从显存（HBM）读取整个模型的权重，但计算量很小——就像请400人施工队只搬一块砖，399人站着等。GPU的计算核心大面积空转，瓶颈不是算力，是数据从显存到核心的搬运速度。

之前的优化（比如多个用户共享权重读取）只是“治标”，没解决GPU架构天生不适合“少计算、多数据搬运”的问题。

三、英伟达找了个“快得飞起”的搭档——LPU芯片

为解决Decode瓶颈，英伟达收购了Groq公司的LPU（语言处理单元）芯片。这颗芯片的“绝招”是：

用SRAM代替HBM：SRAM是刻在芯片内部的高速存储，数据不用外接，速度是HBM的几十倍（相当于把仓库建在车间里，不用跑老远搬货）；
绕过供应链瓶颈：LPU不用HBM（被三星等垄断）、不用台积电CoWoS封装（产能排到2026年）、甚至不用台积电先进制程（用三星本土产线），完全不和GPU抢资源；
稳定吐词：每生成一个词的时间几乎一样，不会突然卡壳——这对Agent的“连贯执行任务”至关重要。

Groq之前因为芯片互联问题无法量产，被英伟达收购后，四个月就解决了问题，把LPU放进了Vera Rubin平台。

四、GPU+LPU“分工干活”，效率提升35倍

英伟达设计了AFD架构，让GPU和LPU各司其职：

GPU管“注意力”：模型的“注意力机制”需要动态加载对话记录（KV cache），GPU的大显存和并行能力适合干这个；
LPU管“前馈网络”：模型生成每个词的固定计算部分（FFN），LPU的高速SRAM和确定性架构能快速完成。

两者像打乒乓球：GPU算完注意力传给LPU，LPU算完前馈网络传回GPU，循环40次（对应模型40层）生成一个词。软件还能重叠计算和通信，隐藏延迟。结果是：万亿参数模型下，每兆瓦算力的吞吐量提升35倍，每个词的成本降10倍——AI能以“思考速度”实时响应。

五、行业大趋势：大厂都在“补推理短板”

不止英伟达，OpenAI也在2026年初和Cerebras签了100亿美元合同。Cerebras走的是另一条路：把一整片晶圆直接做成芯片（比英伟达最大GPU大56倍），让数据在片内流动，减少跨芯片通信开销。

这说明：全球顶级AI公司都意识到，GPU在推理环节的局限已经成为Agent时代的“绊脚石”，必须引入专用芯片。而英伟达的优势在于，它拥有一条和GPU完全不竞争的推理供应链——不用抢HBM、台积电产能，这是对手（AMD、谷歌TPU）没有的结构性优势。

一句话总结：Agent时代，AI需要“能干活的速度”，英伟达用双芯片架构和独立供应链，抢下了下一波AI竞争的先机。