第一财经

推理需求爆发，国产芯片从“堆算力”转向系统协同

2026-01-28 阅读原文

该文章尚未提供 한국어 解读，以下为中文版内容。

核心内容总结

曦望（商汤孵化的半导体公司）发布第三代推理GPU芯片S3，目标把处理百万token的成本压到一分钱；同时解释了行业为何转向推理芯片（需求从训练到使用、场景需实时交互、成本要降成普惠设施），披露公司未来80%资源投推理的战略，还点出训推一体芯片的三大困境、行业竞争新焦点（算力访存比），以及摆脱英伟达依赖、成本驱动市场爆发的趋势。

一、为什么现在推理芯片成了香饽饽？

过去AI芯片更多关注“训练”（让模型学会干活），现在转向“推理”（让模型实际干活），原因有三个：

1. 需求变了：AI从“能被训出来”到“能被用起来”——比如ChatGPT训练完后，每天上亿人用它聊天、写东西，这时候需要的是快速响应的推理算力，而不是反复训练的算力。

2. 场景逼的：多模态（文字+图片+视频）、智能体（像AI助手）需要实时交互，比如你问AI“这张图里有什么”，它得秒回；物理AI（比如机器人）要实时处理环境数据，这些都对推理芯片的速度和成本要求极高。

3. 要成“水电”就得便宜：未来AI要像水电一样普惠，成本必须从“元级”（处理一次几块钱）降到“分级”（几分钱），推理成本是关键——毕竟训练只做一次，推理要做无数次。

二、曦望的芯片布局：先把推理做到极致，再谈其他

曦望已经发布三款芯片，战略很明确：聚焦推理打差异化：

S1：云边端视觉推理专用（比如监控摄像头分析画面）；
S2：对标英伟达A100的训推一体芯片（既能训练又能推理）；
S3：这次的主角，纯推理芯片，目标百万token成本一分钱（相当于处理几万字内容只要一分钱）。

未来资源分配：到2030年，80%的钱和人投推理芯片。徐冰说这是“战略定力”——先把推理做到最好，就能在商业上赚大钱（毕竟推理需求爆发，谁便宜好用谁抢市场）。

三、训推一体芯片的坑，以及芯片竞争的新焦点

训推一体芯片（既能训练又能推理）听起来万能，但曦望联席CEO王勇说它有三大困境：

1. 成本高还买不到：比如英伟达A100芯片不仅贵（单块几万块），还受出口限制，供应不稳定；

2. 电费吓死人：训推一体芯片能耗大，跑一天电费可能比硬件成本还高；

3. 运维太麻烦：需要专业团队调参数、维护，小公司用不起。

现在芯片竞争不再是“堆算力”（比如纸面算力多高），而是算力访存比——简单说就是“算力和数据传输的匹配度”。过去算力提升快，但数据传输（从内存到计算单元）跟不上，形成“内存墙”：比如芯片算力能跑100分，但数据传不过来，实际只能跑30分。推理场景里这个问题更严重，所以谁能把算力和数据传输匹配好，谁就赢。

四、行业趋势：摆脱英伟达依赖+成本驱动应用爆发

1. 摆脱英伟达的“紧箍咒”：英伟达的CUDA生态就像它的“操作系统”，很多AI软件都依赖它。现在大模型公司（比如DeepSeek）开始改框架，曦望也做了自己的AI算力平台（用自家芯片当底座，适配多家大模型），都是想摆脱对英伟达的依赖，自己说了算。

2. 成本降一点，应用爆一片：国际经验显示，百万token成本每降一半，AI应用数量就会显著增长。比如现在处理百万字内容要1毛钱，降到5分，可能会冒出很多新应用（比如AI写小说、AI翻译实时字幕）。国产芯片现在定位准（不盲目追高性能，而是性能+成本兼顾），正处在好时机。

结语

推理芯片的爆发，本质是AI从实验室走向普通人生活的必然结果。曦望押注推理极致，既是顺应需求，也是在国产芯片赛道找差异化。未来，谁能把推理成本压到最低、解决内存墙问题、摆脱英伟达依赖，谁就能在AI算力市场分一杯羹。而对普通人来说，这意味着AI服务会越来越便宜、越来越好用，就像现在的水电一样随手可得。