核心内容总结
曦望(商汤孵化的半导体公司)发布第三代推理GPU芯片S3,目标把处理百万token的成本压到一分钱;同时解释了行业为何转向推理芯片(需求从训练到使用、场景需实时交互、成本要降成普惠设施),披露公司未来80%资源投推理的战略,还点出训推一体芯片的三大困境、行业竞争新焦点(算力访存比),以及摆脱英伟达依赖、成本驱动市场爆发的趋势。
一、为什么现在推理芯片成了香饽饽?
过去AI芯片更多关注“训练”(让模型学会干活),现在转向“推理”(让模型实际干活),原因有三个:
1. 需求变了:AI从“能被训出来”到“能被用起来”——比如ChatGPT训练完后,每天上亿人用它聊天、写东西,这时候需要的是快速响应的推理算力,而不是反复训练的算力。
2. 场景逼的:多模态(文字+图片+视频)、智能体(像AI助手)需要实时交互,比如你问AI“这张图里有什么”,它得秒回;物理AI(比如机器人)要实时处理环境数据,这些都对推理芯片的速度和成本要求极高。
3. 要成“水电”就得便宜:未来AI要像水电一样普惠,成本必须从“元级”(处理一次几块钱)降到“分级”(几分钱),推理成本是关键——毕竟训练只做一次,推理要做无数次。
二、曦望的芯片布局:先把推理做到极致,再谈其他
曦望已经发布三款芯片,战略很明确:聚焦推理打差异化:
- S1:云边端视觉推理专用(比如监控摄像头分析画面);
- S2:对标英伟达A100的训推一体芯片(既能训练又能推理);
- S3:这次的主角,纯推理芯片,目标百万token成本一分钱(相当于处理几万字内容只要一分钱)。
未来资源分配:到2030年,80%的钱和人投推理芯片。徐冰说这是“战略定力”——先把推理做到最好,就能在商业上赚大钱(毕竟推理需求爆发,谁便宜好用谁抢市场)。
三、训推一体芯片的坑,以及芯片竞争的新焦点
训推一体芯片(既能训练又能推理)听起来万能,但曦望联席CEO王勇说它有三大困境:
1. 成本高还买不到:比如英伟达A100芯片不仅贵(单块几万块),还受出口限制,供应不稳定;
2. 电费吓死人:训推一体芯片能耗大,跑一天电费可能比硬件成本还高;
3. 运维太麻烦:需要专业团队调参数、维护,小公司用不起。
现在芯片竞争不再是“堆算力”(比如纸面算力多高),而是算力访存比——简单说就是“算力和数据传输的匹配度”。过去算力提升快,但数据传输(从内存到计算单元)跟不上,形成“内存墙”:比如芯片算力能跑100分,但数据传不过来,实际只能跑30分。推理场景里这个问题更严重,所以谁能把算力和数据传输匹配好,谁就赢。
四、行业趋势:摆脱英伟达依赖+成本驱动应用爆发
1. 摆脱英伟达的“紧箍咒”:英伟达的CUDA生态就像它的“操作系统”,很多AI软件都依赖它。现在大模型公司(比如DeepSeek)开始改框架,曦望也做了自己的AI算力平台(用自家芯片当底座,适配多家大模型),都是想摆脱对英伟达的依赖,自己说了算。
2. 成本降一点,应用爆一片:国际经验显示,百万token成本每降一半,AI应用数量就会显著增长。比如现在处理百万字内容要1毛钱,降到5分,可能会冒出很多新应用(比如AI写小说、AI翻译实时字幕)。国产芯片现在定位准(不盲目追高性能,而是性能+成本兼顾),正处在好时机。
结语
推理芯片的爆发,本质是AI从实验室走向普通人生活的必然结果。曦望押注推理极致,既是顺应需求,也是在国产芯片赛道找差异化。未来,谁能把推理成本压到最低、解决内存墙问题、摆脱英伟达依赖,谁就能在AI算力市场分一杯羹。而对普通人来说,这意味着AI服务会越来越便宜、越来越好用,就像现在的水电一样随手可得。