Aug, 2023

使用困惑度检测语言模型攻击

TL;DR利用大型语言模型(LLMs)伪造对抗性后缀的新型黑客攻击方法,通过迷惑模型来生成危险回复。我们提倡使用困扰度作为一种识别潜在攻击方法的手段,以避免生成禁止回复。通过对使用和不使用对抗性后缀的查询进行困扰度评估,我们发现近 90% 的查询困扰度都超过 1000,这凸显了困扰度在检测此类攻击上的有效性。