第一财经

DeepSeek新模型真的要来了?“MODEL1”曝光

核心内容总结

DeepSeek在R1模型发布一周年之际,其GitHub代码中意外曝光了名为“MODEL1”的新模型。该模型可能采用全新架构,在内存优化、计算效率上有针对性设计,且已接近发布阶段。同时,MODEL1的身份引发猜测(可能是V4旗舰模型、R2推理模型或V3终极版),呼应了此前“2月发布V4且编程能力超顶级模型”的传闻。此外,DeepSeek过去一年通过开源R1等动作,推动中国AI在全球开源生态中崛起——中国模型下载量超越美国,众多海外企业依赖中国开源模型,中国AI已深度嵌入全球供应链。

一、MODEL1新模型:从代码里“漏”出来的技术亮点

MODEL1是怎么被发现的?最近DeepSeek在GitHub上更新了自家的FlashMLA代码(一套针对英伟达GPU优化的工具),里面数十处提到了“MODEL1”这个之前没公开过的标识,和现有模型V3.2并列出现。

FlashMLA是啥?简单说就是DeepSeek自己研发的“GPU增效器”——专门适配英伟达最新的Hopper架构GPU,能让模型少占内存、把GPU的性能用到极致,是DeepSeek模型“又便宜又好用”的关键。比如同样的GPU,用了这个工具能跑更大的模型,或者跑得更快。

MODEL1和老模型V3.2有啥不一样?开发者分析,它在三个核心技术上变了:

1. KV缓存布局:模型处理信息时会临时存一些“中间笔记”(KV缓存),MODEL1的存法不一样,能更省空间;

2. 稀疏性处理:模型计算时只挑重要的部分算,没用的跳过(比如你做题只看关键条件),效率更高;

3. 支持FP8解码:把模型数据从“高清视频”压缩成“短视频”,体积变小但关键信息没丢,解码更快还省内存。

这些变化都指向一个方向:MODEL1想在“用更少资源干更多活”上更上一层楼。

二、MODEL1是谁?离发布还有多远?

行业对MODEL1的身份有三种猜测:

  • V4旗舰模型:之前就有传闻说DeepSeek 2月要发V4,且内部测试显示编程能力超市场顶级模型,这次代码曝光可能就是V4的“预热”;
  • R2推理模型:R1是去年1月发布的推理模型(擅长数学、编程),MODEL1可能是R1的升级版;
  • V3终极版:也有人觉得是V3系列的最后一次迭代,把所有优化都加上。

不管是哪种,从代码结构看,MODEL1已经接近“收尾阶段”——要么训练快完成了,要么准备部署测试,就等最后“锁死参数”和验证没问题,离上线不远了。不过DeepSeek官方还没回应这些猜测。

三、DeepSeek一年磨剑:技术积累让行业充满期待

DeepSeek过去一年的动作很密集:

  • 2024年12月:推出V3旗舰模型,用MoE架构(相当于“多个小模型组队干活”)打下了综合性能的基础;
  • 2025年1月:发布R1推理模型,靠强化学习在数学、编程等复杂任务上表现拔尖,成了Hugging Face上获赞最多的模型;
  • 最近一个月:连发两篇技术论文——“优化残差连接”(让模型训练更稳定、效果更好)和“AI记忆模块”(借鉴生物记忆原理,让模型更擅长长期任务),这些新技术很可能会用到MODEL1里。

海外博主和网友都很期待:有人说“要是再出一个像R1那样的突破性模型,就是里程碑”;还有人催更,觉得DeepSeek发布越快,对开源社区越有利(大家能更早用上好模型)。

四、DeepSeek带火中国AI:全球开源生态变天了

DeepSeek的R1模型不仅自己火,还带动了整个中国AI开源的崛起:

1. 降低行业门槛:R1开源后,让大家觉得“开源模型也能这么强”,不仅技术上容易拿到手用,心理上也敢用了,推动国内公司纷纷跟进——百度、阿里、腾讯、月之暗面等巨头和初创公司都加大了开源投入;

2. 中国模型全球领先:现在Hugging Face上,中国模型的下载量已经超过美国。海外很多初创公司和研究者,都把中国开源模型当“基础工具”用,比如做个新AI应用,直接拿中国模型改一改就行;

3. 嵌入全球供应链:虽然西方想找替代方案,但中国开源模型已经成了全球AI产业链里的“必需品”——就像手机离不开芯片一样,很多海外项目离不开中国的开源模型。

可以说,DeepSeek的开源动作,让中国AI从“跟跑”变成了“领跑”的一员,在全球AI生态里有了话语权。

总结

MODEL1的曝光意味着DeepSeek的新模型即将到来,而过去一年DeepSeek不仅自己技术迭代快,还带动中国AI在全球开源领域站稳了脚跟。对普通用户来说,这可能意味着很快就能用到更高效、更强大的AI工具;对行业来说,中国AI的全球影响力还会继续扩大。