Internet

人类研究人员通过重复提问削弱AI的伦理道德

玛诗北欧 Wednesday, May 29 2024

如何让AI回答一个不应该回答的问题？有许多这样的“越狱”技术，Anthropic研究人员刚刚发现了一个新的方法，通过在提示文档中添加几十个较不危险的问题，可以说服一个大型语言模型（LLM）告诉你如何制造炸弹。

他们称这种方法为“多次越狱”，并已经撰写了一篇论文，并通知了AI社区的同行，以便采取措施。

这种漏洞是一个新发现，是由于最新一代LLMs增加的“上下文窗口”引起的。这是他们可以保存在所谓的短期记忆中的数据量，以前只有几句话，现在可以是成千上万的字甚至整本书。

Anthropic的研究人员发现，具有大上下文窗口的模型如果在提示中有很多该任务的示例，往往在许多任务上表现更好。因此，如果提示中有很多琐事问题（或者称为上下文的引导文档，如模型有上下文的琐事大列表），答案实际上会随着时间的推移变得更好。因此，如果是第一个问题可能会答错的问题，如果是第100个问题，它可能会答对。

但是在这种“有上下文学习”的意外扩展中，模型还“更好”地回复了不当的问题。因此，如果您立即要求它制造一枚炸弹，它会拒绝。但是，如果提示显示它回答了其他99个较不危险的问题，然后要求它制造炸弹…它更有可能遵从。

团队已经通知了同行，以及竞争对手，关于这种攻击，希望这将“培养一种文化，在这种文化中，像这样的漏洞会在LLM提供者和研究人员之间公开分享。”

对于他们自己的缓解措施，他们发现尽管限制上下文窗口有所帮助，但也会对模型的性能产生负面影响。不能让这种情况发生-因此他们正在研究在将查询发送到模型之前对其进行分类和上下文化。当然，这只是让你欺骗一个不同的模型…但在这个阶段，AI安全的目标后移是可以预期的。