虎嗅

新架构模型HRM-Text创新纪录，1B参数、1000美元，图灵奖得主都亲自下场了

2026-06-09 阅读原文

核心内容总结

HRM-Text是一个10亿参数（1B）的AI模型，训练成本仅1500美元（16块H100显卡跑了不到两天），却在数学推理（MATH 56.2分）、小学算术（GSM8K 84.5分）等基准测试中超过了不少2B-7B参数的模型。它的关键创新在于放弃传统大模型“堆参数、堆数据、堆算力”的路线，通过重新设计模型架构（分层递归计算）和训练目标（聚焦回答部分），用极少数据（仅40B独特token，是Llama3.2 3B的1/225）从零预训练成功。它的定位是“概念验证”，证明有限资源下架构创新也能提升效率，甚至图灵奖得主Yoshua Bengio也跟进了类似研究，为大模型发展提供了新方向。

详细拆解

1. 为啥小模型能“以弱胜强”？——不靠堆料靠“巧算”

传统大模型的逻辑是“越大越好”：参数多、数据多、算力强，智能就高。但HRM-Text反其道而行：用1B参数（比很多模型小）、1500美元成本（比百万级大模型便宜太多）、极少数据，却取得好成绩。秘密在于优化计算效率——让有限参数在输出前做更多有效的内部计算，而不是单纯增加参数数量。就像同样的食材，普通厨师做一道菜，好厨师反复加工做出精致菜，HRM就是那个“好厨师”。

2. 架构创新：让模型在输出前“多思考几遍”

普通Transformer模型是“流水线”：输入依次经过每层网络，一层只处理一次。HRM-Text改成“反复迭代”：

它有两个模块：高层H（慢更新，负责全局上下文，比如记住整个问题的核心）和低层L（快更新，负责局部修正，比如调整计算步骤）。
每次输出前，模型会让这两个模块反复更新内部状态（比如预测一个词前，要做6次L更新+2次H更新），相当于让模型在心里“多算几遍”再回答。

为了防止反复迭代导致模型崩溃（比如计算结果越来越乱），它用了两个方法：

MagicNorm：控制计算过程中的数据波动，避免结果失控；
渐进式追责：训练初期只让模型对最近的思考步骤负责，稳定后再扩展到更早的步骤（像老师先批改最近的作业，再逐步检查前面的）。

3. 训练目标：只练“答题”不练“抄题”

普通模型训练时，要预测所有文本的下一个词（包括问题本身），但HRM-Text只对回答部分计算错误（损失）。比如给模型一道数学题，它不用学怎么复述题目，只需要学怎么算出正确答案。同时，它用PrefixLM让模型能完整理解整个问题（指令部分双向可见），再生成答案。这就像老师批改作业时，只看答案对不对，不看你有没有抄题，训练更聚焦，效率更高。

4. 短板与未来：推理强但知识少，要“拆分工”

HRM-Text在推理任务（比如数学题）上表现很好，但在需要广泛知识的测试（比如MMLU，考各学科知识）上不如更大的模型。原因很简单：它的数据少、参数小，记不住太多知识。未来方向是“解耦推理和知识”——让HRM这类模型专注于推理计算，知识部分交给外部数据库或检索系统（像人思考时查资料）。团队已在这个方向有早期成果，但未公开。

5. 行业意义：给大模型“内卷”开新赛道

过去大模型行业都在比谁的参数更大、算力更强，导致门槛越来越高。HRM-Text证明：除了“堆料”，优化计算过程本身也能提升性能。这就像汽车行业，除了加大发动机排量，还可以优化结构提高效率。图灵奖得主Bengio的跟进研究也说明这个方向被认可，可能让更多小团队参与创新，不用再拼“烧钱”能力。

总结

HRM-Text不是要取代大模型，而是提供了一条“低成本高效能”的新路径。它的价值不在于成为完美产品，而在于证明：大模型的进步，除了“更大”，还可以“更巧”——重新设计计算方式，同样能改变性能与成本的关系。这对行业来说，是打破“唯规模论”的重要信号。