Jan, 2024

MULTIVERSE: 在多样世界中揭示大型语言模型的对齐问题

TL;DR我们发现大型语言模型在不同环境下存在不同程度的对齐问题,并通过构建多个上下文(称为世界)并利用相应的编译器,低成本地暴露潜在的对齐问题,从而进行大规模的对 LLM 对齐问题的研究,结果表明我们的方法在效果和效率上优于现有的破解技术。此外,我们的结果表明,现有的 LLMs 在嵌套世界和编程语言世界中存在极高的漏洞性,这暗示现有的对齐训练偏重于真实世界,对 LLMs 在各种(虚拟)世界中的潜在利用存在缺失。