Oct, 2023
LoFT:用于提高对大型语言模型的对抗攻击的可转移性的本地代理微调
LoFT: Local Proxy Fine-tuning For Improving Transferability Of Adversarial Attacks Against Large Language Model
Muhammad Ahmed Shah, Roshan Sharma, Hira Dhamyal, Raphael Olivier, Ankit Shah...
TL;DR本研究提出了局部微调(LoFT)方法,通过在词汇 - 语义邻近的有害查询中微调代理模型,减小代理模型与目标模型之间的差异,从而提高攻击的成功率。实验证明,局部微调代理模型能够提高攻击的传递性和攻击成功率。