BriefGPT.xyz
Ask
alpha
关键词
contextual interaction attack
搜索结果 - 1
利用多轮互动增强上下文的越狱攻击
大型语言模型对越狱攻击很容易受到攻击,本研究提出了一种基于上下文互动的攻击形式,通过操作模型的回应引导其透露有害信息。在四个不同的大型语言模型上进行实验证明了该攻击的有效性,并且该攻击可以在不同大型语言模型之间转移。
PDF
5 months ago
Prev
Next