拒绝「白嫖」！数千名作家发声：生成式 AI 也得付版权费

基于大语言模型的生成式 AI 终究还是「惹众怒」了！

近日，8500 多名小说、非小说和诗歌作者联合签署了一份致生成式 AI 领导者的公开信，呼吁 OpenAI、Alphabet、Meta、Stability AI、IBM 和 Microsoft 的首席执行官就在训练 AI 时使用受版权保护的材料的作者征得同意、认可并给予公平补偿。

信中写道：「基于大型语言模型的生成式AI技术的存在归功于我们的著作。这些技术模仿并反省我们的语言、故事、风格和想法。」

这样的说法可能有失偏颇，但是当我们细究生成式 AI 技术的工作原理之后，倒也是不无道理。

具体来说，生成式 AI 的工作原理就是利用机器学习模型，学习人工创建的内容数据集中的模式和关系，然后再利用学习的模式生成新内容。其中预训练的数据资料便充当着「石油」燃料的作用。

以当前火爆的 ChatGPT为例，公开数据显示，ChatGPT 的训练数据量为 8000 亿个单词的语言料库，包含了 1750 亿个参数，预训练数据量达到 45TB。

有意思的是，ChatGPT 如此庞大的数据集来源却始终「布满迷雾」。

OpenAI 官方曾表示，鉴于 GPT-4 等大规模模型的竞争状况和安全影响，它不再披露有关其数据集来源的信息，并且含糊其词地表示其主要来自互联网、社交媒体、新闻、书籍等。

在 2020 年介绍 ChatGPT-3 的论文中，尚未爆火的 OpenAI 就坦言，其训练数据集的 15% 来自「2 个基于互联网的书籍语料库」。尽管 OpenAI 并没有明确透露这些数据集是什么作品，但有不少爆料者声称这些数据集正是来自以侵犯版权的方式向人们免费提供书籍资料的「影子图书馆」。

在今年 2 月份的时候，OpenAI 遭到许多媒体指责，批评其未经授权便擅自使用他们的文章进行训练。《华尔街日报》记者向 ChatGPT 索取一份训练它的新闻来源清单时，收到的回复中列出了 20 家媒体，其中就包括并未获得授权的《华尔街日报》。同样「常在河边走」的其他生成式 AI 是否又真的能「不湿脚」呢？

因此，种种一切，很难不让那些作家对版权权益是否受到损害而充满疑虑。

更重要的是，公开信中还谈到，在过去十年左右的时间里，作家的收入下降了 40%，目前全职作家到 2022 年的收入中位数仅为 23000 美元，AI 的入侵可能会导致作家们的境况变得更加困难。

因此，呼吁者们也在信中发出请求，要求生成式 AI 的领导者做到以下三点。
– 获得在您的生成式 AI 程序中使用我们受版权保护的材料等许可；
– 公平地补偿过去和现在在您的生成式AI程序中使用我们作品的作者；
– 公平地补偿在 AI 输出中使用我们作品的作者，无论输出是否违反现行法律；

现在压力就来到了生成式 AI 的领导者了。

要知道，许多生成式 AI 的领导者在公开场合上都对版权保护作出过较为严谨的「口头」承诺。在今年 5 月份的美国国会听证会上，OpenAI 的「掌门人」阿尔特曼就曾强调过内容创作者将受益于AI工具，并且掌握对作品的所有权和控制权。此后，阿尔特曼更是化身「传教士」巡访世界各国，为生成式 AI 擂鼓助威。

「打脸」来的太快，如今层出不穷的隐私泄漏诉讼、版权侵犯事件，将这封呼吁信彻底地摆在了台面上，成了绕不开的「催命符」。

只是这一次，生成式 AI 的领导者们还是不是视而不见呢？