第一财经

DeepSeek论文上新！下一代大模型实现“记忆分离”，V4不远了？

2026-01-13 阅读原文

该文章尚未提供 Español 解读，以下为中文版内容。

核心内容总结

DeepSeek联合北京大学发布了一篇关于大模型“条件记忆模块”的论文，针对现有大模型“啥都靠计算模拟、浪费算力”的痛点，提出给模型“分工干活”：新增专门存固定知识的“记忆本”（Engram模块），让原有推理模块专注复杂思考。实验发现这种混合架构比纯推理模型效果更好，且在推理、代码等领域收益超预期。业内猜测这是DeepSeek下一代旗舰模型V4的技术路线，V4预计2025年2月（春节前后）发布，内部测试编程能力超顶级模型；此前V3.2已超过GPT-5和Gemini 3.0 Pro，V4或引发大模型“效率革命”。

详细解读

#### 1. 大模型原来的“笨办法”：啥都要重新算，浪费算力

现有大模型（比如Transformer或MoE架构）有个通病：不管是简单常识（如“地球半径”）还是复杂推理（如“写排序代码”），都用一套计算流程处理。比如问“1+1=2”，模型不会直接“记起来”，反而要像第一次学一样重新推导——就像你每次算简单题都要翻书找公式，而不是看笔记，既慢又费脑子（对应模型的算力）。原因是现有架构没有专门的“记忆模块”，只能用计算模拟检索，浪费资源。

#### 2. 给大模型加“记忆本”：分工干活效率高

DeepSeek的解决方案是给模型“分工”：

Engram模块：相当于“固定知识笔记本”，存常识、公式、语法等不变内容，需要时直接查；
原有MoE推理模块：专门处理复杂动态任务，比如解数学题步骤、写代码逻辑。

这种分工像公司里“知识库管理员+项目策划”，各司其职。论文里叫“优化神经计算与静态记忆的权衡”——说白了就是专业的事交给专业模块干。

#### 3. 效果超预期：不仅记知识，推理能力还变强

实验有两个意外发现：

一是找到MoE和Engram的最佳比例时（“U型缩放定律”），混合模型比纯MoE效果好很多；

二是记忆模块不仅帮“查知识”，在推理、代码、数学这些复杂领域收益更明显。比如写代码时，Engram快速提供函数用法，推理模块能专注设计逻辑，思路更连贯——就像你写作文时工具书在手边，不用停笔查字典，效率自然高。

#### 4. V4要来了？可能是大模型“效率革命”起点

业内猜测这篇论文就是V4的核心技术：

发布时间：春节前后（2月），内部测试编程能力超顶级模型；
前作实力：V3.2已超过GPT-5和Gemini 3.0 Pro；
行业影响：若V4落地，大模型可能更便宜（算力省了）、更快（响应快）、更聪明（推理强），推动整个行业跟进“分工式架构”。

这篇论文和V4的传闻，意味着大模型从“啥都靠算”向“分工高效”进化，普通用户未来可能用到更便宜、更智能的AI工具。