Internet

OpenAI表示正在构建一个工具，让内容创作者可以选择退出AI训练

玛诗北欧 Wednesday, May 22 2024

OpenAI表示，他们正在开发一个工具，让创作者更好地控制他们的内容在训练生成AI中的使用方式。

这个名为Media Manager的工具将允许创作者和内容所有者向OpenAI识别他们的作品，并指定他们希望这些作品如何包含或排除在AI研究和训练中。

OpenAI表示，希望在2025年之前将这个工具推出，并与“创作者、内容所有者和监管机构”一起努力制定标准，可能是通过他们最近加入的行业指导委员会。

“这将需要最尖端的机器学习研究来构建类似工具，以帮助我们识别来自多个来源的版权文本、图片、音频和视频，并反映创作者的偏好。”OpenAI在一篇博客文章中写道。“随着时间的推移，我们计划推出额外的选择和功能。”

从最近的行动来看，不管Media Manager最终形式如何，OpenAI似乎在回应对其发展AI方法的越来越多的批评，这种方法严重依赖于从网络上公开数据抓取。最近，包括芝加哥论坛报在内的8家美国知名报纸起诉OpenAI侵犯知识产权，指责OpenAI盗取文章用于训练生成AI模型，然后未经报酬或提及来源发布商就商业化利用了这些作品。

生成AI模型，包括OpenAI的模型，这种模型可以分析和生成文本、图像、视频等等，通常是基于大量示例进行训练，通常来自公共网站和数据集。OpenAI和其他生成AI供应商辩称，公平使用这一法律原理允许使用受版权保护的作品创建次级创作，只要这种创作具有变革性，就可以保护他们从公共数据抓取并用于模型训练的做法。但并非所有人都同意。

事实上，OpenAI最近辩称要创建有用的AI模型是不可能没有受版权的材料。

为了安抚批评者并为将来的诉讼自卫，OpenAI已经采取措施向内容创作者靠拢。

去年，OpenAI允许艺术家“选择退出”并从公司用于训练其生成图像模型的数据集中移除他们的作品。该公司还允许网站所有者通过robots.txt标准指示，该标准提供有关网站对网络爬虫的指示，他们的网站上的内容是否可以被抓取以训练AI模型。OpenAI继续与大型内容所有者签订许可协议，包括新闻机构、库存媒体库和类似Stack Overflow的问答网站。

然而，一些内容创作者表示OpenAI的举措还不够。

一些艺术家称OpenAI对图像的选择退出工作流程，需要提交每幅图像的单独副本以及说明，是相当繁琐的。据报道，OpenAI相对较少支付许可内容。另外，正如OpenAI在周二的博客文章中承认的那样，公司当前的解决方案并不涉及在创作者的作品被引用、混音或在他们无法控制的平台上重新发布的情况。

除了OpenAI，许多第三方正在尝试为生成AI构建通用权属和选择退出工具。

初创公司Spawning AI，其合作伙伴包括Stability AI和Hugging Face，提供一个应用程序，识别和跟踪机器人的IP地址以阻止抓取尝试，并提供一个数据库，艺术家可以注册他们的作品，以禁止供应商进行训练并尊重请求。Steg.AI和Imatag帮助创作者通过应用人眼不可见的水印来确立他们的图像所有权。芝加哥大学的Nightshade项目通过“毒化”图像数据使其对AI模型训练无用或干扰性。

玛诗北欧