第一财经

DeepSeek新模型真的要来了？“MODEL1”曝光

2026-01-21 阅读原文

核心内容总结

DeepSeek在R1模型发布一周年之际，其GitHub代码中意外曝光了名为“MODEL1”的新模型。该模型可能采用全新架构，在内存优化、计算效率上有针对性设计，且已接近发布阶段。同时，MODEL1的身份引发猜测（可能是V4旗舰模型、R2推理模型或V3终极版），呼应了此前“2月发布V4且编程能力超顶级模型”的传闻。此外，DeepSeek过去一年通过开源R1等动作，推动中国AI在全球开源生态中崛起——中国模型下载量超越美国，众多海外企业依赖中国开源模型，中国AI已深度嵌入全球供应链。

一、MODEL1新模型：从代码里“漏”出来的技术亮点

MODEL1是怎么被发现的？最近DeepSeek在GitHub上更新了自家的FlashMLA代码（一套针对英伟达GPU优化的工具），里面数十处提到了“MODEL1”这个之前没公开过的标识，和现有模型V3.2并列出现。

FlashMLA是啥？简单说就是DeepSeek自己研发的“GPU增效器”——专门适配英伟达最新的Hopper架构GPU，能让模型少占内存、把GPU的性能用到极致，是DeepSeek模型“又便宜又好用”的关键。比如同样的GPU，用了这个工具能跑更大的模型，或者跑得更快。

MODEL1和老模型V3.2有啥不一样？开发者分析，它在三个核心技术上变了：

1. KV缓存布局：模型处理信息时会临时存一些“中间笔记”（KV缓存），MODEL1的存法不一样，能更省空间；

2. 稀疏性处理：模型计算时只挑重要的部分算，没用的跳过（比如你做题只看关键条件），效率更高；

3. 支持FP8解码：把模型数据从“高清视频”压缩成“短视频”，体积变小但关键信息没丢，解码更快还省内存。

这些变化都指向一个方向：MODEL1想在“用更少资源干更多活”上更上一层楼。

二、MODEL1是谁？离发布还有多远？

行业对MODEL1的身份有三种猜测：

V4旗舰模型：之前就有传闻说DeepSeek 2月要发V4，且内部测试显示编程能力超市场顶级模型，这次代码曝光可能就是V4的“预热”；
R2推理模型：R1是去年1月发布的推理模型（擅长数学、编程），MODEL1可能是R1的升级版；
V3终极版：也有人觉得是V3系列的最后一次迭代，把所有优化都加上。

不管是哪种，从代码结构看，MODEL1已经接近“收尾阶段”——要么训练快完成了，要么准备部署测试，就等最后“锁死参数”和验证没问题，离上线不远了。不过DeepSeek官方还没回应这些猜测。

三、DeepSeek一年磨剑：技术积累让行业充满期待

DeepSeek过去一年的动作很密集：

2024年12月：推出V3旗舰模型，用MoE架构（相当于“多个小模型组队干活”）打下了综合性能的基础；
2025年1月：发布R1推理模型，靠强化学习在数学、编程等复杂任务上表现拔尖，成了Hugging Face上获赞最多的模型；
最近一个月：连发两篇技术论文——“优化残差连接”（让模型训练更稳定、效果更好）和“AI记忆模块”（借鉴生物记忆原理，让模型更擅长长期任务），这些新技术很可能会用到MODEL1里。

海外博主和网友都很期待：有人说“要是再出一个像R1那样的突破性模型，就是里程碑”；还有人催更，觉得DeepSeek发布越快，对开源社区越有利（大家能更早用上好模型）。

四、DeepSeek带火中国AI：全球开源生态变天了

DeepSeek的R1模型不仅自己火，还带动了整个中国AI开源的崛起：

1. 降低行业门槛：R1开源后，让大家觉得“开源模型也能这么强”，不仅技术上容易拿到手用，心理上也敢用了，推动国内公司纷纷跟进——百度、阿里、腾讯、月之暗面等巨头和初创公司都加大了开源投入；

2. 中国模型全球领先：现在Hugging Face上，中国模型的下载量已经超过美国。海外很多初创公司和研究者，都把中国开源模型当“基础工具”用，比如做个新AI应用，直接拿中国模型改一改就行；

3. 嵌入全球供应链：虽然西方想找替代方案，但中国开源模型已经成了全球AI产业链里的“必需品”——就像手机离不开芯片一样，很多海外项目离不开中国的开源模型。

可以说，DeepSeek的开源动作，让中国AI从“跟跑”变成了“领跑”的一员，在全球AI生态里有了话语权。

总结

MODEL1的曝光意味着DeepSeek的新模型即将到来，而过去一年DeepSeek不仅自己技术迭代快，还带动中国AI在全球开源领域站稳了脚跟。对普通用户来说，这可能意味着很快就能用到更高效、更强大的AI工具；对行业来说，中国AI的全球影响力还会继续扩大。