Jul, 2024

多语言融合:LLM安全对齐评估与语言混合

TL;DR本研究介绍了一种混合语言查询-回复方案,名为多语言融合,用于评估各种最先进的LLMs(例如GPT-4o、GPT-3.5、Llama3)在复杂的多语言环境下的安全对齐性。研究结果表明,没有经过精心制作的提示模板,多语言融合显著放大了恶意查询的危害,导致LLMs在安全对齐方面的绕过率显著增加。此外,多语言融合的性能在内在语言属性上有显著差异,不同形态和不同语系的语言更容易规避安全对齐。这些发现强调了在复杂的多语言环境下评估LLMs并开发相应的安全对齐策略以适应其优越的跨语言泛化能力的必要性。