Jan, 2024

语言障碍:剖析LLMs在多语言环境中的安全挑战

TL;DR本文探讨大型语言模型在多语言环境中的安全挑战,并讨论缓解此类问题的方法。通过比较先进的语言模型对高资源语言和低资源语言下恶意提示的响应,我们发现低资源语言中的恶意提示往往导致不安全的回答,并且语言模型对低资源语言的恶意提示产生更多的无关回答。此外,我们发现提高模型对高资源语言的训练并没有带来显著改善,表明跨语言对齐的瓶颈在于预训练阶段。我们的发现凸显了跨语言大型语言模型安全的挑战,并希望这些发现能指导未来的研究。