Oct, 2024

AttnGCG:利用关注机制提升大型语言模型的越狱攻击

TL;DR本研究针对基于变换器的大型语言模型(LLMs)在越狱攻击中的脆弱性,填补了优化基础的贪婪坐标梯度(GCG)策略的研究空白。通过操控模型的关注分数,我们提出了增强版方法AttnGCG,实验证明该方法在多种LLMs上攻击效果一致提升,平均提高了7%至10%。