虎嗅

1월에 5억 달러를 태우고서야 깨달았다: 토큰을 KPI로 삼는 것은 AI 전환 과정에서 가장 비용이 많이 드는 함정이었다. 아마존은 하룻밤 사이에 해당 순위를 삭제했다.

原文：一月烧掉5亿美元才醒悟：把Token 当KPI是AI转型里最贵的坑，亚马逊连夜撤下排行榜

2026-06-02 阅读原文

핵심 내용 요약

최근 많은 기업들이 AI 전환 과정에서 큰 문제에 부딪혔습니다. 그들은 AI의 ‘토큰 사용량’을 직원의 KPI(핵심 성과 지표)로 삼았지만, 결과적으로 토큰 비용이 통제 불능 상태가 되어 막대한 돈을 낭비하게 되었습니다(예: 한 회사는 한 달에 5억 달러를 소모했으며, Meta, Uber, 미하우(Mihayaou) 등도 비슷한 문제를 겪었습니다). 반면에 상류의 모델 개발 회사(예: Anthropic)와 칩 제조 회사(예: NVIDIA)는 하류 기업들이 지출하는 돈으로 큰 이익을 얻었습니다. 아마존은 이 문제를 가장 먼저 인식하고 토큰 순위표를 폐지하고 실제 성과를 기반으로 하는 새로운 지표로 전환했습니다. 이는 AI의 효율성 향상이 단순히 토큰 사용량을 늘리는 것이 아니라, AI를 실제 업무 프로세스에 통합하여 실질적인 문제를 해결하는 데 있다는 것을 보여줍니다.

1. 토큰 비용의 통제 불능: 모두 ‘KPI 지향’ 때문

토큰이 무엇인지 간단히 설명하자면, AI가 문서를 처리하거나 코드를 작성할 때마다 소모되는 ‘연료’와 같은 것입니다. 사용량이 많을수록 비용도 높아집니다.

왜 비용이 통제 불능이 되었을까요? 그 이유는 바로 토큰 사용량을 KPI로 삼았기 때문입니다:

어떤 회사의 경영자가 모든 직원에게 Claude 접근 권한을 주었지만 제한을 두지 않아, 직원들이 반복적으로 실패하는 작업을 시도하며 한 달에 5억 달러를 소모했습니다;
Meta는 내부적으로 ‘Claude 경제학’ 순위표를 만들어, 상위 직원이 한 달에 2810억 토큰을 사용하며 거의 50만 달러를 지출했습니다;
미하우의 직원들은 프로젝트를 위해 수십 개의 AI 도구를 사용하여 하룻밤에 200만 위안을 소모했습니다;
Uber는 5,000명의 엔지니어에게 AI 도구를 제공했지만 예상보다 빨리 2026년 전체 예산을 소진했습니다.

더 심각한 것은 AI 도구 자체가 많은 비용을 필요로 한다는 점입니다. 이들은 반복적으로 ‘생각 → 정보 검색 → 도구 호출 → 문맥 이해’를 해야 하며, 토큰 소모량이 일반적인 질문 응답의 1,000배에 달합니다. 즉, 엔지니어들은 ‘열심히 일하는’ 것처럼 보이지만 사실은 돈을 ‘무모하게’ 소비하고 있는 것입니다.

2. 상류 회사의 성공: 당신의 비용은 그들의 수익

하류 기업의 토큰 비용은 상류 회사에게 큰 수익원이 됩니다:

모델 개발 회사 Anthropic: 1분기 수입이 48억 달러였으며, 2분기에는 이 수치가 두 배로 증가하여 109억 달러가 될 것으로 예상됩니다. 이는 기업들이 API를 구매하고 Claude Code를 사용하는 데서 발생한 수익입니다;
칩 제조 회사 NVIDIA: 최신 분기 수입이 816억 달러였으며, AI 추론에 많은 GPU가 필요하기 때문에 토큰 사용량이 많을수록 GPU 수요도 증가하여 큰 이익을 얻었습니다.

상류 회사들은 ‘많은 토큰 소비’를 ‘선진적인 생산성’으로 포장하지만, 하류 기업에게는 토큰이 단지 비용일 뿐입니다. 이 돈이 실제로 더 효율적인 업무 프로세스를 만들어내는 데 사용될 때만 가치가 있습니다.

3. 아마존의 변화: 지표의 변화

아마존은 원래 ‘KiroRank’라는 순위표를 만들어 엔지니어들의 토큰 사용량을 기준으로 순위를 매겼으며, 직원들에게 매주 AI를 사용하도록 요구했습니다. 그 결과 직원들은 순위를 올리기 위해 불필요한 작업에 AI를 사용하기 시작했습니다.

하지만 아마존은 이 문제를 인식하고 순위표를 폐지하고 ‘표준화된 배포량’으로 지표를 바꾸었습니다. 즉, 엔지니어들이 AI를 사용하여 실제로 유용한 코드를 만들었는지를 확인하는 것입니다. 이는 ‘굿하트 정리(Goodhart’s Law)’에 따른 것입니다: 어떤 지표가 목표가 되면 더 이상 좋은 지표가 아닙니다(예전에는 근무 시간을 경쟁했다면, 이제는 토큰 사용량을 경쟁하는 것입니다; 본질적으로 모두 형식주의에 불과합니다).

다른 회사들도 이에 따라 변화를 시작했습니다: Shopify는 순위표를 중립적인 대시보드로 바꾸고 과도한 사용을 방지하기 위한 ‘퓨즈링 메커니즘’을 추가했으며, Duolingo는 AI 평가를 폐지했습니다; 마이크로소프트는 외부 AI 도구의 라이선스 제공을 축소했습니다.

4. 진정한 AI 효율성: 토큰 사용량이 아니라 업무 현장에서의 적용

많은 기업들이 AI 전환에 대해 너무 단순하게 이해하고 있습니다. 계정을 만들고 토큰을 사용하는 것만으로 ‘전환에 성공했다’고 생각하지만, 실제로는 그렇지 않습니다:

Uber는 AI를 사용하여 많은 코드를 작성했지만 사용자에게 더 유용한 기능을 제공하지 못했습니다;
코드 분석 회사 GitClear의 데이터에 따르면, AI가 도와서 작성된 코드의 재작업률이 2주 만에 9배 증가하고 중복 코드가 8배 증가했습니다. 이는 단지 인간의 비효율성을 AI의 더 비싼 비효율성으로 대체한 것입니다.

진정한 효율성 향상은 AI를 업무 프로세스에 통합하는 데 있습니다. 예를 들어, OpenAI와 Anthropic은 ‘전방 배포 엔지니어’를 채용하여 고객의 내부 프로세스를 분석하고 권한을 조정하며 AI를 통합함으로써 실제 문제를 해결하고 있습니다.

결론

AI 전환은 ‘누가 더 많은 돈을 소비하는지’가 아니라, ‘누가 AI를 사용하여 더 많은 문제를 해결하는지’에 달려 있습니다. 토큰 비용이 다른 회사의 재무 보고서에 그저 숫자로 남지 않도록 해야 합니다.

마지막 말

AI 전환은 ‘누가 더 많은 돈을 소비하는지’를 겨루는 것이 아니라, ‘누가 AI를 사용하여 더 많은 문제를 해결하는지’를 겨루는 것입니다. 토큰 비용이 다른 회사의 재무 보고서에 그저 숫자로 남지 않도록 주의해야 합니다.