第一财经

DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?

该文章尚未提供 Español 解读,以下为中文版内容。

核心内容总结

DeepSeek联合北京大学发布了一篇关于大模型“条件记忆模块”的论文,针对现有大模型“啥都靠计算模拟、浪费算力”的痛点,提出给模型“分工干活”:新增专门存固定知识的“记忆本”(Engram模块),让原有推理模块专注复杂思考。实验发现这种混合架构比纯推理模型效果更好,且在推理、代码等领域收益超预期。业内猜测这是DeepSeek下一代旗舰模型V4的技术路线,V4预计2025年2月(春节前后)发布,内部测试编程能力超顶级模型;此前V3.2已超过GPT-5和Gemini 3.0 Pro,V4或引发大模型“效率革命”。

详细解读

#### 1. 大模型原来的“笨办法”:啥都要重新算,浪费算力

现有大模型(比如Transformer或MoE架构)有个通病:不管是简单常识(如“地球半径”)还是复杂推理(如“写排序代码”),都用一套计算流程处理。比如问“1+1=2”,模型不会直接“记起来”,反而要像第一次学一样重新推导——就像你每次算简单题都要翻书找公式,而不是看笔记,既慢又费脑子(对应模型的算力)。原因是现有架构没有专门的“记忆模块”,只能用计算模拟检索,浪费资源。

#### 2. 给大模型加“记忆本”:分工干活效率高

DeepSeek的解决方案是给模型“分工”:

  • Engram模块:相当于“固定知识笔记本”,存常识、公式、语法等不变内容,需要时直接查;
  • 原有MoE推理模块:专门处理复杂动态任务,比如解数学题步骤、写代码逻辑。

这种分工像公司里“知识库管理员+项目策划”,各司其职。论文里叫“优化神经计算与静态记忆的权衡”——说白了就是专业的事交给专业模块干。

#### 3. 效果超预期:不仅记知识,推理能力还变强

实验有两个意外发现:

一是找到MoE和Engram的最佳比例时(“U型缩放定律”),混合模型比纯MoE效果好很多;

二是记忆模块不仅帮“查知识”,在推理、代码、数学这些复杂领域收益更明显。比如写代码时,Engram快速提供函数用法,推理模块能专注设计逻辑,思路更连贯——就像你写作文时工具书在手边,不用停笔查字典,效率自然高。

#### 4. V4要来了?可能是大模型“效率革命”起点

业内猜测这篇论文就是V4的核心技术:

  • 发布时间:春节前后(2月),内部测试编程能力超顶级模型;
  • 前作实力:V3.2已超过GPT-5和Gemini 3.0 Pro;
  • 行业影响:若V4落地,大模型可能更便宜(算力省了)、更快(响应快)、更聪明(推理强),推动整个行业跟进“分工式架构”。

这篇论文和V4的传闻,意味着大模型从“啥都靠算”向“分工高效”进化,普通用户未来可能用到更便宜、更智能的AI工具。