虎嗅

芯魂：Transformer八子、自注意力机制与大算力时代的开端

2026-06-10 阅读原文

该文章尚未提供日本語解读，以下为中文版内容。

核心内容总结

2017年，谷歌8名普通研究员（无大佬、无专项预算）发表了一篇叫《Attention Is All You Need》的论文，提出了Transformer架构——这个看似简单的技术，彻底颠覆了AI行业：它解决了之前AI模型（如RNN）"串行计算效率低、长文本记不住"的问题，让AI训练速度暴增，直接催生了ChatGPT、Claude等大模型；把英伟达推上万亿市值神坛；迫使谷歌、主权国家重构半导体战略。但谷歌因核心业务（搜索广告）太成功，没重视这项技术，8人后来出走创业，各自在对话AI、企业AI、AI制药等领域做出了颠覆性成果，重演了"仙童八叛徒"开创硅谷的传奇。

详细拆解

1. 之前的AI为啥"笨"？Transformer是怎么解决的？

2017年前，AI界的主流是RNN（循环神经网络），它的思路很像人读文章：一个字一个字按顺序读，必须先理解前999个字，才能处理第1000个字。但这有两个大问题：

效率低：GPU擅长"并行计算"（同时干很多事），但RNN是"串行"（一件一件来），导致GPU90%算力浪费；
记不住：读长文本时，前面的内容会慢慢忘记（比如读《百年孤独》开头，读到结尾就忘了开头）。

Transformer的解法很"反常识"：把所有循环、卷积层都去掉，只用"自注意力"机制。简单说就是：

一眼看全：模型不用按顺序读，能同时看到整段文字的所有词，直接理解每个词之间的关系（比如"bank"这个词，上下文是"river"就理解成河岸，是"money"就理解成银行）；
并行计算：把所有计算变成GPU最擅长的"矩阵乘法"，让GPU100%干活，训练速度提升N倍。

为了弥补"不按顺序读"的缺陷，团队加了个位置编码：用数学函数给每个词加个"位置标签"，让模型知道"狗咬人"和"人咬狗"的顺序不同。就这么一个小技巧，解决了大问题。

2. 这篇改变世界的论文，是一群"非大佬"搞出来的？

这8个人里没有行业顶流，甚至有个20岁的大二学生（艾登·戈麦斯）：

分工明确：阿西什·瓦斯瓦尼（串起所有想法的总设计师）、诺姆·沙泽尔（发明"多头注意力"——给模型装多只眼睛，从不同角度理解内容）、雅各布·臼克雷特（最早提出"注意力独挑大梁"的疯狂想法）、尼基·帕尔玛（把想法变成可运行代码的实验专家）、卢卡什·凯泽（把数学转化为GPU能跑的工程代码）、莉昂·琼斯（想出"Attention Is All You Need"这个爆款标题，比学术腔的"基于自注意力的序列建模框架"好记100倍）...
关键细节：大二学生艾登·戈麦斯远程在宿舍里做了最枯燥的"超参数搜索"（调参数、跑实验、重复几百次），这是论文核心实验的基础。

他们没有管理层支持，只是在谷歌园区的白板前争论，凭着"试试注意力能不能行"的好奇心，就搞出了改变文明的技术。

3. 谷歌为啥放跑了这个"金娃娃"？

谷歌当时正处于搜索广告的巅峰，所有资源都围着"让广告多赚1%"的KPI转：

核心业务绑架：Transformer是颠覆性技术，但短期内不能直接提升广告收入，所以被束之高阁（只用来改进搜索排名的小细节）；
官僚体系阻碍：谷歌内部审批流程复杂，颠覆性想法要经过无数层合规审查，年轻人的热情被浇灭。

艾登·戈麦斯和尼基·帕尔玛都吐槽过："我们掏出了改变世界的武器，公司却让我们放抽屉里"。于是8人陆续出走——这像极了1957年"仙童八叛徒"离开肖克利半导体，开创硅谷的故事。

4. 八人出走后，都干了哪些"炸场"的事？

离开谷歌后，他们把Transformer用到了各个领域：

诺姆·沙泽尔：创立Character.AI，让用户和苏格拉底、马斯克的AI对话（他坚信对话AI会取代搜索）；
艾登·戈麦斯：回多伦多创立Cohere，给企业做隐私保护的AI大脑；
雅各布·臼克雷特：跨界AI制药，用Transformer设计核酸疫苗（认为蛋白质序列也是"语言"）；
阿西什·瓦斯瓦尼&尼基·帕尔玛：创立Essential AI，做能操作所有软件的"行动模型"（像人一样用Excel、Photoshop）；
莉昂·琼斯：去日本创立Sakana AI，做小参数量的高效模型（让AI在手机上也能跑）；
伊利亚·波洛舒金：参与NEAR Protocol，做去中心化计算网络。

他们在谷歌没做成的事，散伙后全做成了，而且做得更好。

5. Transformer如何让英伟达成了"万亿巨头"？

Transformer的出现，直接推动了硬件革命：

英伟达的精准押注：CEO黄仁勋最早意识到Transformer的价值，每一代GPU都针对它优化：
V100（2017）：加了Tensor Core（专门算矩阵乘法），速度提升3.5倍；
H100（2022）：引入FP8精度（自动调整计算精度），速度提升25-30倍；
黄仁勋还邀请7位Transformer作者登台，送他们签名服务器面板，说"你们改变了世界"。
新硬件的崛起：比如Groq的LPU（语言处理单元），用"静态调度"（提前规划数据流动）和"去缓存"（用高速SRAM代替显存），让AI推理速度达到每秒几百个Token（接近人类阅读速度）。

现在，所有芯片公司（GPU/TPU/LPU）都在围绕Transformer优化——算法突破倒逼硬件升级，这是AI发展史的规律。

最后想说的

Transformer的故事告诉我们：改变世界不需要大预算、大头衔，只需要一群敢于挑战现状的人，和一点点"注意力"（既指技术本身，也指对创新的关注）。那些在谷歌白板前争论的年轻人，可能没想过自己会拉开AI时代的序幕，但他们的好奇心和坚持，让整个人类文明都走上了新轨道。每次看到数据中心的灯在闪，都像是在向他们致敬——因为每一颗跳动的硅片，都在执行他们当年的想法。