第一财经

阿里、字节同日上新,图像大模型激战“春节档”

该文章尚未提供 日本語 解读,以下为中文版内容。

核心内容总结

春节期间,阿里(Qwen-Image-2.0)和字节跳动(Seedream 5.0预览版)先后发布新一代图像生成大模型,标志着图像AI从“比谁画得好看”转向“比谁能解决实际问题”。两款模型各有侧重(阿里偏写实严谨、字节偏美感流量),未来将在“技术深化(信息图、图层分离)”和“场景落地(企业级应用、电商、内容创作)”展开竞争,中国厂商有望通过丰富的应用场景实现“弯道超车”。

一、春节档的图像大模型“神仙打架”:各有绝活,场景适配不同

2月10日阿里和字节“撞档”发布新模型,就像两个大厨同台秀厨艺,但擅长的菜不一样:

  • 字节Seedream 5.0:升级点是“检索生图”(能参考网上图片生成)、提示词理解更准(比如用户要“带雪花的故宫角楼”,不会漏细节),还支持精细纹理调整。但编辑功能有限——生成后只能裁剪、调画质,不能局部改(比如想把图里的猫换成狗,得重新生成)。
  • 阿里Qwen-Image-2.0:把“生图”和“编辑”整合到一个模型里,汉字渲染更清晰(不会把“福”字写成错别字),还能理解超长指令(比如1000字的复杂描述)。编辑时可以直接对话改图(比如“给这张火锅图加个碗”),但偶尔会“理解偏差”——第一次把火锅外壳换成碗,追加指令才加上碗和桌子。

实测对比:用同一提示词测试两张图——

  • 《清晨雾中的阿尔卑斯山》:Qwen细节拉满(雾的层次、倒影都清晰),像“写实照片”;Seedream氛围感强(朦胧油画感),但细节柔化。
  • 《无厘头美食番<三国演义>》:Seedream抓住“热血欢乐”(人物举着火锅兵器),Qwen漏看“举起”关键词(人物围坐)。

结论:没有绝对好坏,Qwen像“严谨工程师”(适合写实场景),Seedream像“懂流量的设计师”(适合创意场景)。

二、从“画得好看”到“能用”:图像AI要学会“办事”

过去图像模型只追求“颜值”,现在要解决“这张图能帮我做什么”的问题:

  • 企业级痛点:之前C端用户(比如普通人发朋友圈)用得爽,但企业用起来头疼——比如电商要生成100张商品图,模型每次生成的风格都不一样,改起来费时间(“生成不可控”)。现在模型语义理解更强,能精准按企业需求生成(比如“统一风格的女装主图,背景是白色”)。
  • 场景分化:两家开始“抢地盘”——
  • 字节:把Seedream集成到剪映、CapCut(海外版剪映)里,创作者可以直接生图、做视频、发抖音,还支持2K/4K高清,限时免费。目标是巩固内容创作领域的优势,对标海外高价模型但更便宜。
  • 阿里:Qwen-Image-2.0会上线千问APP,未来对接电商(生成商品海报)、PPT/海报设计(比如自动生成带图表的PPT),瞄准企业办公和商业场景。

三、未来图像模型要解锁哪些“新技能”?

行业人士透露,接下来模型要学这些“硬本事”:

1. 信息图:不是生成单张图,而是一次性生成一组关联图(比如漫画的分镜、海报里的多个子图),像“爸爸带一群孩子”。这种能力对漫画、复杂海报制作超有用——比如做一本漫画,不用一张一张生成,模型直接出整套分镜。

2. 图层分离:像PS一样把图拆成“人物层”“背景层”“文字层”,方便单独编辑。比如企业做广告图,要换背景不用重生成,直接改背景层就行。这是工业级需求,但目前还没模型能完美做到。

3. 解决“文字幻觉”:生成带文字的图时,经常写错字或漏字(比如把“奶茶店”写成“奶菜店”),这是下一步要 fix 的 bug。

四、中国厂商的“弯道超车”机会在哪里?

不是纯技术比拼,而是靠“应用场景优势”:

  • 漫剧产业链:中国漫剧发展快,用模型生成漫剧分镜,能把单集成本从几百块降到几十块。企业会快速把模型用到生产中,倒逼模型迭代(比如用户反馈“分镜人物动作不对”,模型就优化)。
  • 应用反哺技术:中国有抖音、电商这些庞大的应用场景,用户需求多且具体。比如电商要“生成带细节的商品图”,模型就针对性优化;内容创作者要“快速做视频封面”,模型就加相关功能。这些场景能让中国模型比海外模型更懂用户,形成独特优势。

总的来说,图像AI已经过了“炫技”阶段,现在要“接地气”。谁能先把技术和实际需求结合好,谁就能在这场竞争中胜出——而中国厂商,正好有“应用场景多”这个先天优势。