Oct, 2023

使用少量上下文示例对越狱和防卫对齐的语言模型进行训练

TL;DR通过提供少量上下文演示数据,不需要微调,我们发现大型语言模型可以被操纵以增加或减少越狱的概率。我们提出了越狱攻击和守护方法,通过恶意上下文引导模型生成有害输出,并通过拒绝回答有害提示的演示来增强模型的鲁棒性。我们的实验表明,越狱攻击和守护方法在增加或减少敌对越狱攻击成功率方面是有效的,这为影响大型语言模型行为并提高其安全性和对齐性提供了新的视角。