Feb, 2024

利用多轮互动增强上下文的越狱攻击

TL;DR大型语言模型对越狱攻击很容易受到攻击,本研究提出了一种基于上下文互动的攻击形式,通过操作模型的回应引导其透露有害信息。在四个不同的大型语言模型上进行实验证明了该攻击的有效性,并且该攻击可以在不同大型语言模型之间转移。