虎嗅

芯魂:Transformer八子、自注意力机制与大算力时代的开端

该文章尚未提供 日本語 解读,以下为中文版内容。

核心内容总结

2017年,谷歌8名普通研究员(无大佬、无专项预算)发表了一篇叫《Attention Is All You Need》的论文,提出了Transformer架构——这个看似简单的技术,彻底颠覆了AI行业:它解决了之前AI模型(如RNN)"串行计算效率低、长文本记不住"的问题,让AI训练速度暴增,直接催生了ChatGPT、Claude等大模型;把英伟达推上万亿市值神坛;迫使谷歌、主权国家重构半导体战略。但谷歌因核心业务(搜索广告)太成功,没重视这项技术,8人后来出走创业,各自在对话AI、企业AI、AI制药等领域做出了颠覆性成果,重演了"仙童八叛徒"开创硅谷的传奇。

详细拆解

1. 之前的AI为啥"笨"?Transformer是怎么解决的?

2017年前,AI界的主流是RNN(循环神经网络),它的思路很像人读文章:一个字一个字按顺序读,必须先理解前999个字,才能处理第1000个字。但这有两个大问题:

  • 效率低:GPU擅长"并行计算"(同时干很多事),但RNN是"串行"(一件一件来),导致GPU90%算力浪费;
  • 记不住:读长文本时,前面的内容会慢慢忘记(比如读《百年孤独》开头,读到结尾就忘了开头)。

Transformer的解法很"反常识":把所有循环、卷积层都去掉,只用"自注意力"机制。简单说就是:

  • 一眼看全:模型不用按顺序读,能同时看到整段文字的所有词,直接理解每个词之间的关系(比如"bank"这个词,上下文是"river"就理解成河岸,是"money"就理解成银行);
  • 并行计算:把所有计算变成GPU最擅长的"矩阵乘法",让GPU100%干活,训练速度提升N倍。

为了弥补"不按顺序读"的缺陷,团队加了个位置编码:用数学函数给每个词加个"位置标签",让模型知道"狗咬人"和"人咬狗"的顺序不同。就这么一个小技巧,解决了大问题。

2. 这篇改变世界的论文,是一群"非大佬"搞出来的?

这8个人里没有行业顶流,甚至有个20岁的大二学生(艾登·戈麦斯):

  • 分工明确:阿西什·瓦斯瓦尼(串起所有想法的总设计师)、诺姆·沙泽尔(发明"多头注意力"——给模型装多只眼睛,从不同角度理解内容)、雅各布·臼克雷特(最早提出"注意力独挑大梁"的疯狂想法)、尼基·帕尔玛(把想法变成可运行代码的实验专家)、卢卡什·凯泽(把数学转化为GPU能跑的工程代码)、莉昂·琼斯(想出"Attention Is All You Need"这个爆款标题,比学术腔的"基于自注意力的序列建模框架"好记100倍)...
  • 关键细节:大二学生艾登·戈麦斯远程在宿舍里做了最枯燥的"超参数搜索"(调参数、跑实验、重复几百次),这是论文核心实验的基础。

他们没有管理层支持,只是在谷歌园区的白板前争论,凭着"试试注意力能不能行"的好奇心,就搞出了改变文明的技术。

3. 谷歌为啥放跑了这个"金娃娃"?

谷歌当时正处于搜索广告的巅峰,所有资源都围着"让广告多赚1%"的KPI转:

  • 核心业务绑架:Transformer是颠覆性技术,但短期内不能直接提升广告收入,所以被束之高阁(只用来改进搜索排名的小细节);
  • 官僚体系阻碍:谷歌内部审批流程复杂,颠覆性想法要经过无数层合规审查,年轻人的热情被浇灭。

艾登·戈麦斯和尼基·帕尔玛都吐槽过:"我们掏出了改变世界的武器,公司却让我们放抽屉里"。于是8人陆续出走——这像极了1957年"仙童八叛徒"离开肖克利半导体,开创硅谷的故事。

4. 八人出走后,都干了哪些"炸场"的事?

离开谷歌后,他们把Transformer用到了各个领域:

  • 诺姆·沙泽尔:创立Character.AI,让用户和苏格拉底、马斯克的AI对话(他坚信对话AI会取代搜索);
  • 艾登·戈麦斯:回多伦多创立Cohere,给企业做隐私保护的AI大脑;
  • 雅各布·臼克雷特:跨界AI制药,用Transformer设计核酸疫苗(认为蛋白质序列也是"语言");
  • 阿西什·瓦斯瓦尼&尼基·帕尔玛:创立Essential AI,做能操作所有软件的"行动模型"(像人一样用Excel、Photoshop);
  • 莉昂·琼斯:去日本创立Sakana AI,做小参数量的高效模型(让AI在手机上也能跑);
  • 伊利亚·波洛舒金:参与NEAR Protocol,做去中心化计算网络。

他们在谷歌没做成的事,散伙后全做成了,而且做得更好。

5. Transformer如何让英伟达成了"万亿巨头"?

Transformer的出现,直接推动了硬件革命:

  • 英伟达的精准押注:CEO黄仁勋最早意识到Transformer的价值,每一代GPU都针对它优化:
  • V100(2017):加了Tensor Core(专门算矩阵乘法),速度提升3.5倍;
  • H100(2022):引入FP8精度(自动调整计算精度),速度提升25-30倍;
  • 黄仁勋还邀请7位Transformer作者登台,送他们签名服务器面板,说"你们改变了世界"。
  • 新硬件的崛起:比如Groq的LPU(语言处理单元),用"静态调度"(提前规划数据流动)和"去缓存"(用高速SRAM代替显存),让AI推理速度达到每秒几百个Token(接近人类阅读速度)。

现在,所有芯片公司(GPU/TPU/LPU)都在围绕Transformer优化——算法突破倒逼硬件升级,这是AI发展史的规律。

最后想说的

Transformer的故事告诉我们:改变世界不需要大预算、大头衔,只需要一群敢于挑战现状的人,和一点点"注意力"(既指技术本身,也指对创新的关注)。那些在谷歌白板前争论的年轻人,可能没想过自己会拉开AI时代的序幕,但他们的好奇心和坚持,让整个人类文明都走上了新轨道。每次看到数据中心的灯在闪,都像是在向他们致敬——因为每一颗跳动的硅片,都在执行他们当年的想法。