BriefGPT.xyz
Ask
alpha
关键词
adversarial llm attacks
搜索结果 - 1
COLD-Attack: 使用隐秘性与可控性越狱线性语言模型
大型语言模型(LLMs)上的越狱问题近来引起了越来越多的关注,本文提出了可控制的攻击生成问题,并构建了与自然语言处理中可控制文本生成问题之间的联系,通过 COLD-Attack 框架统一并自动化了对各种控制要求下的对抗性 LLM 攻击的搜索
→
PDF
5 months ago
Prev
Next