Oct, 2023

低资源语言越狱 GPT-4

TL;DR我们的研究揭示了语言模型的人工智能安全训练和红队测试存在的语言不平等性跨语言漏洞,通过成功将不安全的英文输入转化为低资源语言来规避 GPT-4 的安全机制。我们的工作证明,GPT-4 在与这些不安全的翻译输入互动时会提供可行的建议,并成功帮助用户实现有害目标的可能性高达 79%,这与甚至超过了最先进的越狱攻击。其他资源丰富 / 中等资源语言的攻击成功率显著较低,这表明跨语言漏洞主要适用于低资源语言。以前,对低资源语言的有限训练主要影响那些讲这些语言的人,导致技术差距。然而,我们的研究突出指出了一个关键性的转变:这种不足现在对所有语言模型用户构成风险。公开可用的翻译 API 使任何人都能利用语言模型的安全漏洞。因此,我们的工作呼吁加强整体红队测试工作,以开发具有广泛语言覆盖能力的强大多语言安全保护措施。