adversarial suffixes | BriefGPT

关键词adversarial suffixes

搜索结果 - 4

AmpleGCG: 学习一种通用且可传输的对抗后缀生成模型，用于破解开放和关闭的 LLM
我们训练了一个生成模型，名为 AmpleGCG，它能够捕捉对抗性后缀的分布，使得在几秒钟内能够快速生成几百个对任何有害查询的后缀，并且能够以接近 100％的攻击成功率攻击多种语言模型。
PDF3 months ago
由噪音到清晰：通过文本嵌入的翻译解开大型语言模型攻击的对抗后缀
提出了一种能够将不可读的对抗性后缀转化为连贯可读文本的对抗性后缀嵌入翻译框架（ASETF），该方法在攻击成功率和提示文本的流畅性方面明显优于现有技术，并且可以推广为一种生成可成功攻击多种语言模型的可转移对抗性后缀的更广泛方法。
PDF4 months ago
TRAP: 针对黑盒识别的有针对性随机对抗提示诱饵
通过使用名为 TRAP 的方法，本研究介绍了一种新颖的黑盒身份验证问题，该方法可以检测出特定的大型语言模型 (LLM) 在第三方应用程序中的使用，以确保 LLM 的合规性和防止滥用。TRAP 方法使用对越狱提出的敌对后缀，从目标 LLM 获
PDF5 months ago
使用困惑度检测语言模型攻击
利用大型语言模型（LLMs）伪造对抗性后缀的新型黑客攻击方法，通过迷惑模型来生成危险回复。我们提倡使用困扰度作为一种识别潜在攻击方法的手段，以避免生成禁止回复。通过对使用和不使用对抗性后缀的查询进行困扰度评估，我们发现近 90% 的查询困扰
PDF10 months ago