May, 2024

TIMA: 文本 - 图像相互感知的零样本鲁棒性与泛化能力平衡

TL;DR通过引入一种新的文本图像相互感知(TIMA)方法,这项工作提出了一种旨在在大规模基础模型中实现零 - shot 对抗鲁棒性并保持零 - shot 泛化的挑战,重点关注流行的对比语言图像预训练(CLIP)模型。该方法在小型对抗扰动下在零 - shot 对抗鲁棒性和泛化之间取得了可比的良好权衡,但在大型对抗扰动下未能实现良好的权衡。该方法在文本嵌入之间增加了最小超球能量(MHE)以提高文本嵌入的跨类别距离,并利用知识蒸馏保持了 MHE 调整后和原始文本嵌入之间的相似性,以保留不同类别之间的语义信息。此外,该方法还引入了一种文本感知图像(TAI)调整机制,在训练阶段通过基于文本距离的自适应边界(TAM)增加了图像嵌入之间的跨类别距离,并利用知识蒸馏保持了 Fine-tuning 后和预训练图像嵌入之间的相似性。广泛的实验结果证明了该方法的有效性,在防御各种对抗扰动的同时,保持了原始 CLIP 模型的零 - shot 泛化能力。