近日,来自马萨诸塞州的YouTube创作者大卫·米莱特(David Millette)向OpenAI发起了一项集体诉讼,指控该公司在未获得允许的情况下,使用了数百万个YouTube视频的转录内容来训练他们的生成式人工智能模型。米莱特的律师在美国加州北区地方法院提交的诉状中称,OpenAI通过这种方式明显从创作者的工作中获利,违反了版权法和YouTube的服务条款,这些条款禁止将视频用于独立于其服务的应用。
诉状中指出,OpenAI的AI产品因使用了未经同意且未给予任何信用和补偿的训练数据而愈发有价值。米莱特的律师事务所寻求陪审团审判,并要求赔偿超过500万美元,以补偿所有可能受到影响的YouTube用户和创作者。
生成式AI模型通过处理大量数据样本(如电影、录音、论文等)来学习数据的可能性及其模式。虽然许多企业声称其数据抓取符合“合理使用”原则,但许多版权持有者对此表示异议,并通过诉讼来制止这种做法。

视频转录内容成为了一种重要的训练数据来源,尤其是在其他数据来源逐渐枯竭的情况下。根据Originality.AI的数据,目前全球超过35%的顶级网站已经封锁了OpenAI的网络爬虫。此外,麻省理工学院的数据来源倡议研究显示,约25%的高质量数据来源已被限制使用,使得AI模型的训练数据变得更加紧张。
OpenAI的Whisper模型专门用于转录视频音频以收集更多训练数据。《纽约时报》报道,OpenAI团队转录了超过一百万小时的YouTube视频后,利用这些转录文本来训练他们的GPT-4模型。这引发了内部讨论,认为这可能违反了YouTube的规定。
随着越来越多的版权持有者对AI公司提起诉讼,未来法律对AI训练数据的监管和版权保护将更加严格。与此同时,AI公司需要在数据获取和使用上更加谨慎,以避免法律纠纷和潜在的经济损失。
此次诉讼不仅对OpenAI具有重要影响,也可能对整个AI行业产生深远的影响,迫使企业在数据使用上更加透明和合规。