Jan, 2024
大型语言模型中越狱攻击的跨语言调查
A Cross-Language Investigation into Jailbreak Attacks in Large Language
Models
TL;DR通过广泛的实证研究,我们对多语言越狱攻击进行了深入探究,提出了一种新的语义保持算法来创建多语言越狱数据集,并对包括GPT-4和LLaMa在内的开源和商业语言模型进行了详尽评估,并实施了微调缓解方法。我们的发现显示出,我们的缓解策略显著增强了模型的防御能力,将攻击成功率降低了96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。