Feb, 2024

利用上下文对抗性游戏防御越狱引发事件

TL;DR利用深度学习和大型语言模型 (Large Language Models) 的对抗训练方法,引入了以环境为背景的对抗性游戏 (In-Context Adversarial Game, ICAG),以动态扩展知识来抵御越狱攻击,而无需进行精调。ICAG 采用迭代过程提升防御和攻击代理的能力,从而有效降低了新生成的越狱提示对 LLMs 的成功攻击率,且展现了对其他 LLMs 的可转移能力,显示出其作为多功能防御机制的潜力。