Tech

Reddit新变更旨在保护平台免受AI爬虫的侵害

玛诗北欧 Monday, July 22 2024

Reddit周二宣布更新其机器人排除协议（robots.txt文件），告知自动网络爬虫它们是否被允许爬取网站。

历史上，robots.txt文件用于允许搜索引擎抓取网站并引导用户到内容。然而，随着AI的崛起，网站被抓取并用于训练模型，而不承认内容的实际来源。

除了更新的robots.txt文件，Reddit将继续对未知的机器人和爬虫进行速率限制和阻止，禁止其访问其平台。该公司告诉TechCrunch，如果机器人和爬虫不遵守Reddit的公共内容政策，并且没有与平台达成协议，它们将被限制速率或阻止。

Reddit表示，更新不应影响大多数用户或诚信行为者，如研究人员和组织，比如互联网档案馆。相反，更新旨在阻止AI公司在Reddit内容上训练其大型语言模型。当然，AI爬虫可能会忽略Reddit的robots.txt文件。

这一宣布是继《连线》调查发现AI技术搜索初创公司Perplexity一直在盗取和抓取内容几天后公布的。《连线》发现，Perplexity似乎无视不要抓取其网站的请求，尽管在其robots.txt文件中阻止了这家初创公司。Perplexity首席执行官Aravind Srinivas回应了这些指责，并表示robots.txt文件并非法律框架。

Reddit的即将到来的变更不会影响与之达成协议的公司。例如，Reddit与谷歌达成了价值6000万美元的协议，允许这家搜索巨头在社交平台的内容上训练其AI模型。通过这些变化，Reddit向其他希望使用Reddit数据进行AI训练的公司发出信号，他们将不得不付款。

Reddit在一篇博文中表示：“任何访问Reddit内容的人都必须遵守我们的政策，包括为了保护红迪用户而设置的政策。”“我们在与谁合作和信任大规模访问Reddit内容方面有所挑选。”

这一宣布并不令人意外，因为Reddit在几周前发布了一项新政策，旨在指导商业实体和其他合作伙伴如何访问和使用Reddit的数据。

玛诗北欧