Oct, 2023

LoFT:用于提高对大型语言模型的对抗攻击的可转移性的本地代理微调

TL;DR本研究提出了局部微调(LoFT)方法,通过在词汇 - 语义邻近的有害查询中微调代理模型,减小代理模型与目标模型之间的差异,从而提高攻击的成功率。实验证明,局部微调代理模型能够提高攻击的传递性和攻击成功率。