Sep, 2024

对多模态模型的对抗攻击

TL;DR本研究解决了多模态模型在攻击中表现不足的问题,提出了创新的CrossFire方法,通过将攻击者选择的目标输入转化为原始图像或音频文件的匹配格式,并将攻击形式化为优化问题,以最小化嵌入之间的角度偏差。实验结果显示,CrossFire显著优于现有攻击方法,能够有效操控下游任务,同时当前的防御策略无法有效抵御CrossFire。