第一财经

魔都美术馆迎来首个官方AI讲解员

核心内容总结

字节跳动旗下豆包与上海浦东美术馆合作,成为国际大展的官方AI讲解员,让逛展从“走马观花”变沉浸式体验。这一案例不仅展示了AI多模态技术(能看、听、聊)在日常生活的落地,更折射出行业趋势:多模态是通向通用人工智能(AGI)的必经之路,而其高阶形态“世界模型”正成为行业焦点——它让AI理解物理世界规律(如重力、摩擦力),是AI从“功能模仿”转向“懂世界”的关键,也是解决具身智能(像人一样行动的AI)数据难题的核心手段。

详细拆解解读

#### 1. AI当讲解员:逛展不再“看个热闹”

豆包当导览员不是简单念介绍,而是能“陪你聊艺术”。比如你站在毕加索《阅读》前问“怎么营造宁静感”,它会结合1932年的创作背景(毕加索以缪斯玛丽为灵感),分析柔和曲线和色块怎么搭出私密感,还会说这时期他在具象和变形间找平衡——相当于把艺术史老师装进口袋。

技术上要解决两个难题:一是“认对东西”,比如区分外观像的文物、读懂小众展品;二是“跟紧你”,不管你从哪个角度、距离看展品,都能稳定识别。这背后靠的是字节的Seed1.8模型,它能处理视频、语音等多模态信息,保证讲解准确。

#### 2. 多模态AI:让机器从“听文字”到“懂世界”

过去AI只能处理文字(比如聊天机器人),现在多模态AI能同时“看图片、听声音、读文字”——就像人用眼睛看、耳朵听、嘴巴说一样。逛展时,你拍展品(视觉)、问问题(语音)、听讲解(语音),都是多模态交互的场景。

行业里说2025是多模态“适应年”,2026“多模态感统”会成热点(就是让AI像人一样整合多种感觉)。为啥重要?因为AI要融入生活,就得懂真实世界的多元信息——比如开车时要看路况(视觉)、听导航(语音),质检时要辨颜色(视觉)、听异响(声音),这些都离不开多模态。

#### 3. 世界模型:AI理解物理规律的“大脑”

多模态是基础,世界模型是它的“升级版”。简单说,世界模型就是让AI“明白物理世界的规则”:比如苹果掉下来会落地(重力)、玻璃摔了会碎(易碎性)、推桌子会动(摩擦力)。它还能模拟推演——比如提前算“把杯子放边缘会不会掉”。

Google DeepMind CEO说这是打开AGI(通用人工智能)的钥匙。为啥?因为AI要像人一样行动,得先懂世界规律:比如机器人拿杯子,得知道“轻拿轻放才不会碎”,这就需要世界模型来教它。

#### 4. 为啥现在都在搞世界模型?解决具身智能的“数据卡脖子”问题

今年行业聊世界模型变多,核心原因是“要做能行动的AI(具身智能),但数据不够”。具身智能需要大量视觉、动作数据(比如机器人走路、拿东西的视频),但采集这些数据成本高、周期长。

世界模型能解决这个问题:它可以模拟虚拟世界,自动生成多模态数据(比如虚拟机器人拿杯子的视频),用来训练AI。比如创新奇智CTO说,先做世界模型,就能“凭空”产出数据,不用再去现实里拍一万次机器人摔杯子。

#### 5. 行业进展与挑战:技术路线没统一,成本还是大难题

目前行业在多模态和世界模型上动作不少:中科院搞了NeoVerse,爱诗科技出了能处理1080P视频的PixVerse R1,字节把世界理解能力融入Seed系列模型(但没明确单独的世界模型路线)。

但挑战也很明显:一是技术路线没统一(比如不同公司对世界模型的定义和做法不一样);二是成本高(训练多模态模型需要大量数据和算力);三是模型“记不住”(多模态理解仍有记忆问题)。不过专家们认为,随着研发推进,这些问题会逐步解决,最终形成“多模态世界大模型”的统一方向。

总结

豆包逛展看似小事,实则是AI技术落地的缩影:从“能聊天”到“能懂艺术”,再到“要懂世界规律”,AI正一步步从实验室走向生活,朝着“像人一样思考和行动”的目标靠近。而多模态和世界模型,就是这条路上的关键台阶。