

去年,埃德·牛顿-雷克斯(Ed Newton-Rex)公开辞去了他在一家著名人工智能公司的高管职位,原因是他与老板在版权问题上存在分歧。
流行的人工智能图像生成模型“稳定扩散”(Stable Diffusion)的制造商Stability AI,在未经创作者同意的情况下,向该模型输入了数百万张从互联网上“抓取”的图像,从而训练了该模型。与许多其他领先的人工智能公司一样,Stability认为这种技术并不违反版权法,因为它构成了一种“合理使用”受版权保护作品的形式。
《稳定》音频团队的负责人Newton-Rex不同意这种说法。“价值数十亿美元的公司在未经许可的情况下,在创作者的作品上训练生成式人工智能模型,然后这些模型被用来创造新的内容,在很多情况下,这些内容可以与原创作品竞争。我看不出,在一个创造艺术的经济模式已经让创作者依赖版权的社会里,这是怎么能被接受的,”他去年11月在一篇宣布辞职的帖子中写道,该平台的前身是Twitter。
这是目前围绕使用受版权保护的作品来训练人工智能系统而展开的一场激烈战斗中的第一场。去年12月,《纽约时报》在曼哈顿法院起诉OpenAI,指控ChatGPT的创始人非法使用数百万篇报纸文章来训练人工智能系统,这些系统旨在与《纽约时报》竞争,成为可靠的信息来源。与此同时,在2023年7月,喜剧演员莎拉·西尔弗曼(Sarah Silverman)和其他作家起诉OpenAI和meta,指控这两家公司未经许可使用他们的作品来训练人工智能模型。当年早些时候,艺术家Kelly McKernan、Sarah Andersen和Karla Orti起诉了开发图像生成人工智能模型的Midjourney、Stability AI和DeviantArt,声称这些公司根据艺术家的作品训练了他们的人工智能模型。一些视觉艺术家也在反击,他们使用新工具,在未经同意的情况下“毒害”训练过的人工智能模型,导致它们以不可预测的方式崩溃,或者抵制复制其艺术风格的企图。
OpenAI表示,它认为《纽约时报》对它的诉讼“没有依据”,并补充说,虽然它认为对从互联网上抓取的数据进行培训是合理使用,但它为出版商提供了一个退出的选择,“因为这是正确的事情。”稳定人工智能没有立即回应置评请求。
1月17日,Newton-Rex宣布了一项激励人工智能公司尊重创造者的新举措。他发起了一个名为“公平训练”(fair Trained)的非营利组织,为那些只根据创造者同意的数据训练模型的人工智能公司提供认证。他希望,在培训数据采购方面采取更好做法的公司将激励整个生态系统更公平地对待创作者。“这个行业确实有道德的一面,而这个认证的重点就是强调这一点,”牛顿-雷克斯告诉《时代》杂志。
为了配合它的发布,fair Trained已经认证了9个模型,其中许多是由音乐生成领域的人工智能公司制造的。其中包括与Grimes和James Blake等艺术家合作过的“健康”公司Endel的模特。该认证表明,这些公司已合法授权使用其模型所依据的数据,而不是简单地声称合理使用。
除了在人工智能方面的工作外,牛顿-雷克斯还是一位写合唱音乐的古典作曲家。他说,他的艺术实践激励他为创作者挺身而出。他说:“这一直是我非常关心的一个问题,我相信这在很大程度上是因为我自己是一名音乐家。”“在你真正经历了将自己的工作投入到某件事上并看到它走向世界之前,你很难知道成为一名创作者的真正感受。”他认为,看到自己的作品只收到微薄的版税支票,而人工智能公司却能带来数十亿美元的收入,这是各行各业艺术家的共同感受。“我投入了大量的工作,这就是我得到的回报。我是否希望(我的作品)被一家公司免费使用,用于构建他们自己的模型,并从中获利?”
他继续说道:“许多创造者,包括我自己,都会拒绝这种做法。(但)如果有机会获得同意,有机会讨论条款,有机会最终赚到一些钱,这可能是一件非常好的事情。”
公平培训并不要求寻求认证的公司分享他们的数据集以供审核。Newton-Rex表示,相反,它要求公司填写书面材料,详细说明他们的数据集包括什么,数据来自哪里,他们采取了什么样的尽职调查程序,以及他们是否保持了良好的记录。他说:“这显然有一种信任的成分。”“我们需要就此展开讨论,看看是否需要采取更多措施。但我的感觉是,至少在一开始,实际上一个基于信任的系统是有效的。人们将失去提供不准确信息的动力,特别是因为这可能导致被取消认证。”他补充称,大多数声称享有合理使用豁免的公司,都“相当直截了当”地表示,它们在法律上有权遵循这一策略。
不过,相信公司关于其数据集内容和来源的说法,是一种存在明显漏洞的做法。“我们必须实际看到这些数据集本身,以验证它们是否仍然包含有问题的内容,”研究用于训练人工智能系统的大型数据集内容的学者阿贝巴?伯哈恩(Abeba Birhane)表示。“在没有看到数据集本身的情况下,很难说这是否足够。”
大多数大型人工智能公司,包括OpenAI、谷歌DeepMind、meta和Anthropic,都没有披露用于训练其最大模型的数据集的内容甚至许多细节。对于想要了解他们的数据是否在未经他们同意的情况下被用于训练模型的创作者来说,这往往是一个障碍。
OpenAI已经与包括美联社(Associated Press)和阿克塞尔·斯普林格(Axel Springer)在内的几家新闻编辑室签署了协议,授权将新闻文章用作训练数据。据报道,它正在与其他几家公司进行进一步的讨论,包括CNN、福克斯和时代周刊。