BriefGPT.xyz
Ask
alpha
关键词
token-level attack method
搜索结果 - 1
通过自适应的稠密到稀疏约束优化实现高效 LLM 越狱
最近的研究发现,大型语言模型(LLMs)易受到越狱攻击,可以生成有害内容。本文介绍了一种新颖的令牌级攻击方法,自适应密集到稀疏约束优化(ADC),该方法有效越狱了几个开源 LLMs。我们的方法将离散越狱优化放松为连续优化,并逐渐增加优化向量
→
PDF
2 months ago
Prev
Next