Jan, 2024

大型语言模型中的通用漏洞:上下文学习反向攻击

TL;DR通过毒化示例和提示,ICLAttack 攻击方法能够操纵大型语言模型的行为,而不需要额外的微调,从而提高了攻击方法的自然隐蔽性。