核心内容总结
Anthropic(AI公司Claude的母公司)因使用盗版书籍训练AI被作家集体起诉,最终和解赔付15亿美元,但这场官司的焦点后来转向了高昂的律师费(律师最初要3亿,后降为1.875亿)。同时,法官裁定:用盗版书训练AI属侵权,但用正版书训练AI属于“合理使用”(类比人类阅读学习)。Anthropic为合规训练,还搞了个“巴拿马项目”——买实体书切脊扫描后销毁,用正版文本训练AI。这场纠纷暴露了AI训练版权的灰色地带,以及利益分配的矛盾。
一、AI公司为啥非要“偷”书训练?——正版太麻烦,盗版香又快
AI要生成高质量内容,得喂优质文本,书籍比网上帖子靠谱多了。但买正版书授权太费劲:要和出版社谈、签合同、付版权费,流程繁琐(Anthropic CEO说这是“法律/商业上的麻烦事”)。于是,他们走了“捷径”:
- 先用公开的盗版数据集“Books3”(含近20万册盗版书),作家Andrea Bartz发现自己的书在里面,直接起诉;
- 更夸张的是,Anthropic联合创始人曼恩亲自下场:2021年从Books3下了19万多本,后来又从盗版网站下了500万本,2022年新盗版网站上线,他又下了200万本,还喊同事一起“薅羊毛”,附言“太及时了!”。
说白了,就是为了省时间、省成本,明知是盗版也照用不误。
二、官司结果:15亿赔偿+一个“合法漏洞”
2025年法官判了:
1. 盗版训练=侵权:Anthropic下载、持有盗版书的行为,不受“合理使用”保护,每一次下载都是侵权,得赔15亿,还要销毁所有盗版内容;
2. 正版训练=合法:法官认为,用合法购买的书籍训练AI,是“极具变革性的创作行为”,类比人类“读书学习后创作”——人买了书读不用每次引用都给钱,AI也一样。
Anthropic立刻抓住这个漏洞:搞了“巴拿马项目”——花数千万美元买数百万本实体书,切书脊扫描成电子文本,然后把纸页切碎回收。这样一来,他们就有了“正版授权”的文本,光明正大地训练AI了。作家们懵了:这操作真的合理?但法官认了。
三、最闹心的不是赔偿,是律师费
15亿赔偿听起来很多,但作家们拿到手的少得可怜:每部被侵权的作品大约3000美元,还要分给版权方(比如出版社)。而律师团队一开始要拿3亿(占和解金20%),说“已经很克制”。这引发了三方不满:
- 作家:自己辛苦写的书被偷用,拿的钱还不如律师零头;
- 法官和Anthropic:律师没提供详细的工时记录,凭啥拿这么多?
后来律师把比例降到12.5%(1.875亿),但还是有7位作家反对。不过90%以上的作品接受了和解,最终结果大概率不会变——这场为“创作尊严”打的官司,最后变成了“律师费该拿多少”的扯皮。
四、AI训练=人类学习?这个类比争议大
法官把AI训练比作人类阅读,是这场官司最核心的争议点:
- 支持科技公司的人:觉得这是AI的胜利,以后可以合法用正版书训练,推动AI发展;
- 作家和伦理学者:反驳说AI不是人!人类读书是理解、吸收后创造,AI是“复制+重组”大量文本,本质不一样。如果AI训练算“学习”,那作家的知识产权就没保障了——以后AI随便用你的书,只要买本正版就行?
这个争议短时间内解决不了:AI公司要发展,作家要保护权益,法律还没跟上技术的脚步。
最后:这场官司的启示
AI训练的版权问题,不是“偷不偷”这么简单。Anthropic的案例告诉我们:
1. 盗版肯定不行,但正版训练的边界还模糊;
2. 利益分配要公平——不能让律师拿大头,作家喝西北风;
3. AI和人类创作的关系,还需要更清晰的规则。
未来,AI公司、作家、法律界得好好掰扯掰扯:AI到底能不能“读”书?读了之后怎么给作家分钱?不然类似的官司还会继续。