BriefGPT.xyz
Ask
alpha
关键词
in-context attack
搜索结果 - 1
使用少量上下文示例对越狱和防卫对齐的语言模型进行训练
通过提供少量上下文演示数据,不需要微调,我们发现大型语言模型可以被操纵以增加或减少越狱的概率。我们提出了越狱攻击和守护方法,通过恶意上下文引导模型生成有害输出,并通过拒绝回答有害提示的演示来增强模型的鲁棒性。我们的实验表明,越狱攻击和守护方
→
PDF
9 months ago
Prev
Next