纽约时报诉OpenAI案的不同之处
2024-02-27 15:10:04
  • 0
  • 0
  • 1

译自:Michael Borella,The New York Times Case against OpenAI is Different. Here's Why,Patent Docs,February 19, 2024,view at:https://www.patentdocs.org/2024/02/the-new-york-times-case-against-openai-is-different-heres-why.html。

2023 年 12 月 27 日,纽约时报公司(以下简称 "时报")在纽约南区法院起诉 OpenAI 的几个实体及其利益相关者微软公司(以下简称 "OpenAI")侵犯版权、间接侵犯版权、共同侵犯版权、违反美国《数字千年版权法案》(DMCA)、不正当竞争和商标淡化(详见诉状)。 与其他针对 OpenAI 的高调版权诉讼(如作者协会、Julian Sancton 等人、Michael Chabon 等人、Sarah Silverman 等人、Paul Tremblay 和 Mona Awad 等人)不同的是,《纽约时报》的指控具有显著的明确性。 这将使 OpenAI 难以证明:(i) 其人工智能生成模型没有在《纽约时报》受版权保护的内容上进行训练;(ii) OpenAI 在进行训练时属于合理使用。

申诉围绕 OpenAI 的大型语言模型(LLM)聊天机器人 ChatGPT 展开。 正如《纽约时报》所述:

LLM 的工作原理是,根据用于训练 LLM 的潜在数十亿个示例,预测给定文本串后面可能出现的词语。 LLM 将训练语料库中用于预测的信息编码为称为 "参数 "的数字。 GPT-4 LLM 中大约有 1.76 万亿个参数。 为 LLM 设置参数值的过程称为 "训练"。 它包括将训练作品的编码副本存储在计算机内存中,反复通过模型并屏蔽掉单词,然后调整参数,使屏蔽掉的单词与模型预测填入其中的单词之间的差异最小。 在一般语料库中进行训练后,模型还可以进一步进行 "微调",例如,使用特定类型的作品进行额外的几轮训练,以更好地模仿作品的内容或风格,或者向模型提供人为反馈,以强化所期望的行为或抑制不期望的行为。

训练完成后,可以向 LLM 提供与用例或主题相关的特定信息,以便使其输出 "接地气(ground)"。 例如,可以要求 LLM 根据作为上下文提供的特定外部数据(如文档)生成文本输出。 使用这种方法,被告的合成搜索应用程序:(1) 接收输入,如问题;(2) 在生成响应之前检索与输入相关的文档;(3) 将原始输入与检索到的文档相结合,以提供上下文;(4) 将组合数据提供给 LLM,由 LLM 生成自然语言响应。

换句话说,像 ChatGPT 这样的 LLM 的参数可以看作是其训练数据的压缩混合体,其表示方式保留了原始作品的措辞、语法和语义。 在查询时,ChatGPT 会产生与这种压缩表示一致的输出。根据公开信息,《纽约时报》声称,用于训练各种版本 GPT 的内容有相当大一部分来自其网站,估计有数百万部作品。 此外,更令人信服的是,《纽约时报》提供了许多 ChatGPT 能够生成其文章近乎逐字复制的样本。下面是其中一个例子:


这种对比令人震惊。《纽约时报》称,它让 ChatGPT 在 "最少提示(minimal prompting)"的情况下产生了输出结果,但没有提供具体的提示或一系列提示。 输出结果表明,在训练过程中被强调的突出训练数据可以在生成的模型中以几乎未压缩的方式表示出来。 因此,即使很难在 1.76 万亿个参数中准确指出文章的 "副本 "在哪里,但这种副本确实存在,这应该是没有问题的。

OpenAI 在 2024 年 1 月 8 日的一篇博文中公开回应了这一投诉,指出:

背诵(Memorization)是AI学习过程中的一种罕见故障,我们正在不断加以解决,但当特定内容在训练数据中出现不止一次时,背诵就比较常见了,比如在很多不同的公共网站上都会出现一些内容。 因此,我们采取了一些措施来限制无意中的记忆,防止在模型输出中出现重复内容。 我们也希望我们的用户能够负责任地行事;故意操纵我们的模型进行反刍不是对我们技术的恰当使用,也违反了我们的使用条款。
有趣的是,《纽约时报》诱导的转录似乎来自多年前的文章,这些文章已在多个第三方网站上扩散。
他们似乎故意篡改了提示语,通常包括冗长的文章摘录,以便让我们的模型进行反刍(regurgitate)。 即使使用这样的提示,我们的模型通常也不会像《纽约时报》影射的那样表现,这表明他们要么指示模型进行反刍,要么从许多网站上挑选例子。

这是一个奇怪的回应。 它实质上是,OpenAI承认抄袭了《纽约时报》的相关文章,但却提出了 "嘿,这只是一个错误 "和"《纽约时报》不得不努力工作并操纵了我们的模型 "等非法律理由。 就像说 "狗吃了我的作业 "一样,这两个借口都不可能经得起推敲。

为什么在实际抄袭问题上,OpenAI 似乎是在自取灭亡? 因为它把所有鸡蛋都放在了合理使用的篮子里。

合理使用是写入版权法的一种积极抗辩,允许在未经版权持有者许可的情况下有限地使用受版权保护的材料。 它承认僵化的版权法会扼杀知识的传播。 因此,它试图在版权持有者对其创造性作品的利益与公众对知识和教育进步的利益之间取得平衡。 因此,合理使用原则承认,并非所有对版权材料的使用都会损害版权所有者的利益,有些使用可能对整个社会有益。

即便如此,OpenAI 未来的道路依然漫长而充满不确定性。 合理使用是一个出了名的可塑性很强的四要素测试,不同法院的适用标准可能不一致。 此外,自近 50 年前首次出现在法规中以来,该检验标准的解释轮廓也在不断演变。 就连美国版权局也承认,"[合理使用] 的事实模式和法律应用随着时间的推移而不断演变......"。

即使对精通版权法的人来说,预测合理使用争议的结果也往往是痴人说梦(事实上是美国最高院在近四年内受理了两件版权合理使用案件:谷歌甲骨文案与安迪霍沃尔案,其中对规则的解释诡谲无比)。 案件的结果可能取决于法官认为哪些合理使用因素与案件事实最相关,以及他们如何解释这些因素。

合理使用可能不是法律上的嗅觉测试(sniff test),但也很接近。 尽管如此,让我们来看看每一个因素,以了解 OpenAI 在依赖这一抗辩时可能会遇到的困难:

(1) 使用的目的和性质,包括这种使用是商业性的还是非营利性的教育目的。

法院通常认为,出于非营利教育或非商业目的的无授权复制比出于商业利益的无授权复制更有可能是合理使用。 在此过程中,法院会考虑使用是否具有变革性,即是否以某种方式改变了原作品,增加了新的表达或含义,而不仅仅是取代原作品的使用。

OpenAI 经营的是营利性企业,对最终用户访问其模型收取费用。 此外,《纽约时报》提供的例子更接近于逐字复制,而不是任何类型的转换性使用。 因此,这一因素对 OpenAI 不利。

(2) 版权作品的性质。

这一因素考察的是作品的使用与版权促进创造性的目标的紧密程度。 因此,与使用基于事实的作品(如技术论文或新闻报道)相比,使用需要大量创造力的作品(如书籍、电影或音乐)可能无法有力地支持合理使用主张。

在此,OpenAI 有一个角度,因为《纽约时报》制作了大量的新闻报道,无法对基本事实主张版权。 然而,《纽约时报》的内容包括许多详细的文章,以其作者表面上具有创造性的声音解释事件和其他事实。 此外,调查性报道是对事实的发掘和串联,这需要创造性的努力。 充其量,这一因素对 OpenAI 来说是中性的。

(3) 相对于版权作品整体而言,使用部分的数量和实质性。

在考虑这一因素时,法院会审查版权作品被使用的数量和部分。 如果使用了很大一部分,就不太可能被视为合理使用。使用较小的部分则更有可能被视为合理使用,但如果复制的是作品的关键或核心部分,那么即使是作品的一小部分也可能不符合合理使用的条件。

如果我们将《纽约时报》几乎完全复制其作品的指控和证据视为事实,那么这一因素也对 OpenAI 不利。

(4) 使用对版权作品潜在市场或价值的影响。

第四个因素可能是最重要的因素。 要调查的是未经授权的使用是否对版权所有者原创作品的市场产生了负面影响。 法院会考察这种使用是否会降低与原作品相关的销售额,或者如果这种使用成为普遍现象,是否有可能对原作品的市场造成重大损害。

OpenAI 将很难证明自己实际上没有搭《纽约时报》新闻内容投资的便车。 尤其是 GPT-4 正在被整合到其少数股东微软的必应搜索引擎中。 一旦整合成熟,必应就会生成搜索查询的答案,甚至可能不会链接回网站(如《纽约时报》的网站),而必应正是从这些网站上获取了基础信息来制定答案的。 这可能会对《纽约时报》的收入造成毁灭性打击,因为该公司依赖的是用户可以无限制地访问几十年前的付费文章的订阅,以及向这些用户提供的广告。

重申一下,合理使用分析是不可预测的。 法官几乎可以将所有重点都放在一个因素上。 尽管如此,如果申诉中列举的事实成立,很难想象 OpenAI 会在合理使用纠纷中胜诉。 更有可能的结果是,《纽约时报》和 OpenAI 在做出这样的判决之前悄悄和解。(文终)

 
最新文章
相关阅读