虎嗅

8个AI 押世界杯:西班牙被押爆,亚马尔成了安全牌

核心内容总结

这篇文章记录了硅星人团队对8个全球主流AI(如ChatGPT、Claude、MiniMax等)进行的世界杯预测评测:给AI们出了同一份“考卷”(预测小组排名、冠军、金球奖等),还逼问每个AI“只留一条最敢押的判断”。结果发现:多数AI跟着公开共识走(比如押西班牙冠军、亚马尔最佳年轻球员),但也有少数AI敢反共识;AI们的姿态分成两种——有的留余地承认不确定性,有的一开始装确定后来改口。最终会等世界杯结束(7月19日)评分,看AI离开共识的判断到底是有价值的见解还是瞎猜。

拆解解读

1. 多数AI的“集体默契”:西班牙成冠军最大热门,亚马尔被押爆

8个AI里,6个押西班牙拿冠军,所有AI都把西班牙送进决赛;金球奖7个选亚马尔(西班牙天才少年),金靴6个选姆巴佩。这些选择基本都是公开市场里的“热门选项”——比如Opta超级计算机模拟西班牙夺冠概率16.1%排第一,亚马尔在最佳年轻球员预测里是断层第一。这说明AI们很多时候不是“独立思考”,而是把大家都认可的看法复述一遍,再包装成自己的判断。

2. 为什么5个AI都押亚马尔拿最佳年轻球员?——这是最“安全”的牌

当被要求“只留一条最敢押的判断”时,5个AI都选了亚马尔拿最佳年轻球员。原因很简单:亚马尔是这个奖项的“公开断层热门”(隐含概率约40%,甩第二名一大截),而且他两年前拿过欧洲杯同款奖。AI选这个就像押彩票时选最热门的号码——就算错了,也有很多人一起错,风险最小。有的AI甚至说:“如果亚马尔没拿这个奖,我的预测方法就得彻底复盘”,可见他们对这个“安全牌”的信心。

3. AI预测的“抄作业光谱”:从全抄到敢改数据

把AI的夺冠概率和公开基准(Opta模拟)对比,能看出AI们的“抄作业程度”:

  • 全抄派:Claude的夺冠概率Top5和Opta完全一样(比如西班牙16.1%、法国13%),就像学生把同桌的答案原封不动抄下来;
  • 小改派:ChatGPT把法国和西班牙的顺序对调,Gemini小幅调整数字;
  • 敢改派:MiniMax把阿根廷抬到第二热门(说市场和Opta都错了),GLM说巴西被严重低估(真实概率该接近10%)。

这说明有的AI只是“信息搬运工”,有的敢尝试“自己的判断”——但敢改的是不是真有道理,得等世界杯验证。

4. AI之间的“互怼现场”:那些完全相反的预测

8个AI的预测里,有四组完全撞车的判断:

  • 阿根廷命运:Claude说阿根廷进不了决赛,MiniMax说阿根廷是“头号热门”(签运好+17个2022冠军成员);
  • 英格兰成色:Gemini说英格兰会“淘汰赛初期崩盘”(图赫尔弃用福登等是战术自毁),Claude说英格兰能进决赛当亚军;
  • 巴西真假:Manus说巴西夺冠概率不到3%(市场还在为“巅峰内马尔”买单),GLM说巴西被严重低估(安切洛蒂效应+阵容深度);
  • 哈兰德进球数:Kimi说哈兰德小组赛最多进1球(挪威可能垫底),Claude说挪威能进八强。

这些相反的预测,40天后都会被清算——谁对谁错,没有辩解空间。

5. AI的两种“姿态”:有的留余地,有的装确定

面对世界杯这种“头号热门只有16%胜算”的不确定事件,AI们表现出两种态度:

  • 老实派:GLM主动承认“我预测的决赛对阵90%不会发生”(这是世界杯淘汰赛结构的数学必然);MiniMax一开始说自己的预测有60-65%置信度,后来改口说只有20-30%(承认之前是“不严谨的直觉”);
  • 装确定派:有的AI把自己的预测说得很绝对,但其实背后是抄共识。

这种态度差异很重要:等结果出来,老实承认不确定的AI如果蒙对了,会被夸“惊喜”;装确定的AI如果错了,会被抓“把柄”。

最后,文章说等世界杯结束会出完整评分,看AI离开公开共识的判断到底是“有价值的见解”还是“噪音”。你站Claude的“阿根廷无法卫冕”,还是MiniMax的“梅西踢进决赛”?可以留个记录等验证~