虎嗅

AI agent 能算清自己的账单吗？一次关于token 消耗的系统分析

2026-06-11 阅读原文

该文章尚未提供 العربية 解读，以下为中文版内容。

核心内容总结

这篇论文聚焦AI智能体（比如帮你写代码、修bug的AI助手）在解决编程任务时的“花钱”问题——也就是token消耗（token是AI处理信息的最小单位，用得越多，费用越高）。研究发现：①AI智能体任务比普通代码聊天/推理贵上千倍，主要是输入token（AI“读”的内容）吞掉大部分成本；②花更多token不一定效果更好，甚至可能因为重复操作浪费钱；③不同模型的“花钱效率”差异大，有的模型省钱又能干，有的费钱还不太行；④目前很难提前准确预测AI要花多少钱，人类和AI自己都估不准。

一、AI智能体为啥这么烧钱？输入token是“吞金兽”

你可能以为AI花钱主要是因为它“说”得多（输出内容），但论文数据打了脸：输入token才是成本主力。比如一个典型的AI编程任务，输入和输出token的比例是154:1——相当于AI每输出1个字，要先“读”154个字的内容。

为啥输入这么多？因为AI智能体是“自主工作”的：它要反复查代码文件、调用工具、试错，每次操作都会把之前的所有内容（比如之前查的文件、试错记录）都塞进上下文里，像滚雪球一样越积越多。哪怕厂商用了缓存减少重复处理，输入token还是占了99%以上的成本。

对比三类任务更明显：普通代码推理（比如问“这个函数输出啥？”）只要1200 token，AI聊天（比如和你讨论代码）稍多，但AI智能体任务平均要417万token——差了近千倍！这就像你请助理修bug，他不仅干活，还把所有过程记录都反复读一遍，自然花得多。

二、花得多≠做得好，重复操作反而浪费钱

你可能觉得“贵的就是好的”，但论文发现：花钱多不一定效果好，甚至可能更差。

首先，消耗极不稳定：最贵的任务比最便宜的多花700万token；同一个任务、同一个模型跑四次，最贵的可能是最便宜的两倍。其次，同一任务内，中等消耗时准确率最高，花得最多的两档反而准确率下降——因为AI在反复查看、修改同一个文件，上下文越堆越长却没进展，相当于“瞎忙活”。

这就像助理修bug，反复看同一个文件、改来改去，时间花了不少，bug却没修好，还得付更多工钱。

三、模型之间差很大：有的高效又准，有的费钱还菜

8个前沿模型（包括GPT-5、Claude、Kimi-K2等）在同样任务下，“花钱习惯”天差地别：

高效选手：GPT-5和GPT-5.2，用较少token就能达到不错的准确率；
费钱选手：Kimi-K2，平均比GPT-5多花150万token，准确率却不高；
识时务选手：GPT-5系列在解不开的题上不会硬耗，消耗温和上升；
死磕选手：Kimi-K2遇到解不开的题，会继续反复试错，消耗暴涨200万token——相当于助理明知修不好还硬干，浪费钱。

关键是，这种差异是模型“本性”决定的：哪怕做同一道题，有的模型就是更费钱，和题目难度无关。

四、能提前知道要花多少钱吗？难！人类和AI自己都估不准

想提前知道AI要花多少钱？目前很难：

人类判断不靠谱：专家标注的“简单”任务，有6.7%比“困难”任务的平均消耗还高；“困难”任务里11.1%比“简单”的还便宜。人类觉得难的，AI不一定花得多，反之亦然。
AI自我预测也不准：让AI先预估自己要花多少token，结果相关性最高只有0.39（满分1），多数模型在0.2-0.3之间。而且AI普遍低估消耗，尤其是输入token——就像助理拍胸脯说“1小时搞定”，结果干了3小时还没好。

预测本身还得花钱：早期模型预测成本是任务本身的两倍，现在虽有改进，但还是不划算。

延伸思考：AI需要“自知之明”

这些发现点出了AI智能体的两个核心问题：透明性和自我意识。未来，AI不仅要会干活，还得知道“自己要花多少钱”“什么时候该停手”。比如在动手前预警“这个任务可能很贵”，或者在解不开时及时止损，避免浪费。

对用户来说，按量计费可能还是主流，但至少需要更透明的账单——比如AI告诉你“我现在在查哪个文件，花了多少token”。对开发者来说，优化上下文管理（比如少带重复内容）、提升模型的“自知之明”，是降低成本的关键。

最终，我们想要的AI助手，应该是既能高效干活，又能清楚自己“账单”的靠谱帮手。

这篇论文用数据戳破了AI智能体的“隐形账单”，让我们看到：AI的能力提升背后，是成本的失控；而解决成本问题，不仅是技术优化，更是让AI学会“认识自己”。