核心内容总结
这篇论文聚焦AI智能体(比如帮你写代码、修bug的AI助手)在解决编程任务时的“花钱”问题——也就是token消耗(token是AI处理信息的最小单位,用得越多,费用越高)。研究发现:①AI智能体任务比普通代码聊天/推理贵上千倍,主要是输入token(AI“读”的内容)吞掉大部分成本;②花更多token不一定效果更好,甚至可能因为重复操作浪费钱;③不同模型的“花钱效率”差异大,有的模型省钱又能干,有的费钱还不太行;④目前很难提前准确预测AI要花多少钱,人类和AI自己都估不准。
一、AI智能体为啥这么烧钱?输入token是“吞金兽”
你可能以为AI花钱主要是因为它“说”得多(输出内容),但论文数据打了脸:输入token才是成本主力。比如一个典型的AI编程任务,输入和输出token的比例是154:1——相当于AI每输出1个字,要先“读”154个字的内容。
为啥输入这么多?因为AI智能体是“自主工作”的:它要反复查代码文件、调用工具、试错,每次操作都会把之前的所有内容(比如之前查的文件、试错记录)都塞进上下文里,像滚雪球一样越积越多。哪怕厂商用了缓存减少重复处理,输入token还是占了99%以上的成本。
对比三类任务更明显:普通代码推理(比如问“这个函数输出啥?”)只要1200 token,AI聊天(比如和你讨论代码)稍多,但AI智能体任务平均要417万token——差了近千倍!这就像你请助理修bug,他不仅干活,还把所有过程记录都反复读一遍,自然花得多。
二、花得多≠做得好,重复操作反而浪费钱
你可能觉得“贵的就是好的”,但论文发现:花钱多不一定效果好,甚至可能更差。
首先,消耗极不稳定:最贵的任务比最便宜的多花700万token;同一个任务、同一个模型跑四次,最贵的可能是最便宜的两倍。其次,同一任务内,中等消耗时准确率最高,花得最多的两档反而准确率下降——因为AI在反复查看、修改同一个文件,上下文越堆越长却没进展,相当于“瞎忙活”。
这就像助理修bug,反复看同一个文件、改来改去,时间花了不少,bug却没修好,还得付更多工钱。
三、模型之间差很大:有的高效又准,有的费钱还菜
8个前沿模型(包括GPT-5、Claude、Kimi-K2等)在同样任务下,“花钱习惯”天差地别:
- 高效选手:GPT-5和GPT-5.2,用较少token就能达到不错的准确率;
- 费钱选手:Kimi-K2,平均比GPT-5多花150万token,准确率却不高;
- 识时务选手:GPT-5系列在解不开的题上不会硬耗,消耗温和上升;
- 死磕选手:Kimi-K2遇到解不开的题,会继续反复试错,消耗暴涨200万token——相当于助理明知修不好还硬干,浪费钱。
关键是,这种差异是模型“本性”决定的:哪怕做同一道题,有的模型就是更费钱,和题目难度无关。
四、能提前知道要花多少钱吗?难!人类和AI自己都估不准
想提前知道AI要花多少钱?目前很难:
- 人类判断不靠谱:专家标注的“简单”任务,有6.7%比“困难”任务的平均消耗还高;“困难”任务里11.1%比“简单”的还便宜。人类觉得难的,AI不一定花得多,反之亦然。
- AI自我预测也不准:让AI先预估自己要花多少token,结果相关性最高只有0.39(满分1),多数模型在0.2-0.3之间。而且AI普遍低估消耗,尤其是输入token——就像助理拍胸脯说“1小时搞定”,结果干了3小时还没好。
预测本身还得花钱:早期模型预测成本是任务本身的两倍,现在虽有改进,但还是不划算。
延伸思考:AI需要“自知之明”
这些发现点出了AI智能体的两个核心问题:透明性和自我意识。未来,AI不仅要会干活,还得知道“自己要花多少钱”“什么时候该停手”。比如在动手前预警“这个任务可能很贵”,或者在解不开时及时止损,避免浪费。
对用户来说,按量计费可能还是主流,但至少需要更透明的账单——比如AI告诉你“我现在在查哪个文件,花了多少token”。对开发者来说,优化上下文管理(比如少带重复内容)、提升模型的“自知之明”,是降低成本的关键。
最终,我们想要的AI助手,应该是既能高效干活,又能清楚自己“账单”的靠谱帮手。
这篇论文用数据戳破了AI智能体的“隐形账单”,让我们看到:AI的能力提升背后,是成本的失控;而解决成本问题,不仅是技术优化,更是让AI学会“认识自己”。