虎嗅

偷下电子书、被罚15亿美元后,Claude又毁掉了百万本实体书

核心内容总结

Anthropic(AI公司Claude的母公司)因使用盗版书籍训练AI被作家集体起诉,最终和解赔付15亿美元,但这场官司的焦点后来转向了高昂的律师费(律师最初要3亿,后降为1.875亿)。同时,法官裁定:用盗版书训练AI属侵权,但用正版书训练AI属于“合理使用”(类比人类阅读学习)。Anthropic为合规训练,还搞了个“巴拿马项目”——买实体书切脊扫描后销毁,用正版文本训练AI。这场纠纷暴露了AI训练版权的灰色地带,以及利益分配的矛盾。

一、AI公司为啥非要“偷”书训练?——正版太麻烦,盗版香又快

AI要生成高质量内容,得喂优质文本,书籍比网上帖子靠谱多了。但买正版书授权太费劲:要和出版社谈、签合同、付版权费,流程繁琐(Anthropic CEO说这是“法律/商业上的麻烦事”)。于是,他们走了“捷径”:

  • 先用公开的盗版数据集“Books3”(含近20万册盗版书),作家Andrea Bartz发现自己的书在里面,直接起诉;
  • 更夸张的是,Anthropic联合创始人曼恩亲自下场:2021年从Books3下了19万多本,后来又从盗版网站下了500万本,2022年新盗版网站上线,他又下了200万本,还喊同事一起“薅羊毛”,附言“太及时了!”。

说白了,就是为了省时间、省成本,明知是盗版也照用不误。

二、官司结果:15亿赔偿+一个“合法漏洞”

2025年法官判了:

1. 盗版训练=侵权:Anthropic下载、持有盗版书的行为,不受“合理使用”保护,每一次下载都是侵权,得赔15亿,还要销毁所有盗版内容;

2. 正版训练=合法:法官认为,用合法购买的书籍训练AI,是“极具变革性的创作行为”,类比人类“读书学习后创作”——人买了书读不用每次引用都给钱,AI也一样。

Anthropic立刻抓住这个漏洞:搞了“巴拿马项目”——花数千万美元买数百万本实体书,切书脊扫描成电子文本,然后把纸页切碎回收。这样一来,他们就有了“正版授权”的文本,光明正大地训练AI了。作家们懵了:这操作真的合理?但法官认了。

三、最闹心的不是赔偿,是律师费

15亿赔偿听起来很多,但作家们拿到手的少得可怜:每部被侵权的作品大约3000美元,还要分给版权方(比如出版社)。而律师团队一开始要拿3亿(占和解金20%),说“已经很克制”。这引发了三方不满:

  • 作家:自己辛苦写的书被偷用,拿的钱还不如律师零头;
  • 法官和Anthropic:律师没提供详细的工时记录,凭啥拿这么多?

后来律师把比例降到12.5%(1.875亿),但还是有7位作家反对。不过90%以上的作品接受了和解,最终结果大概率不会变——这场为“创作尊严”打的官司,最后变成了“律师费该拿多少”的扯皮。

四、AI训练=人类学习?这个类比争议大

法官把AI训练比作人类阅读,是这场官司最核心的争议点:

  • 支持科技公司的人:觉得这是AI的胜利,以后可以合法用正版书训练,推动AI发展;
  • 作家和伦理学者:反驳说AI不是人!人类读书是理解、吸收后创造,AI是“复制+重组”大量文本,本质不一样。如果AI训练算“学习”,那作家的知识产权就没保障了——以后AI随便用你的书,只要买本正版就行?

这个争议短时间内解决不了:AI公司要发展,作家要保护权益,法律还没跟上技术的脚步。

最后:这场官司的启示

AI训练的版权问题,不是“偷不偷”这么简单。Anthropic的案例告诉我们:

1. 盗版肯定不行,但正版训练的边界还模糊;

2. 利益分配要公平——不能让律师拿大头,作家喝西北风;

3. AI和人类创作的关系,还需要更清晰的规则。

未来,AI公司、作家、法律界得好好掰扯掰扯:AI到底能不能“读”书?读了之后怎么给作家分钱?不然类似的官司还会继续。