May, 2024
TIMA: 文本-图像相互感知的零样本鲁棒性与泛化能力平衡
TIMA: Text-Image Mutual Awareness for Balancing Zero-Shot Adversarial
Robustness and Generalization Ability
TL;DR通过引入一种新的文本图像相互感知(TIMA)方法,这项工作提出了一种旨在在大规模基础模型中实现零-shot对抗鲁棒性并保持零-shot泛化的挑战,重点关注流行的对比语言图像预训练(CLIP)模型。该方法在小型对抗扰动下在零-shot对抗鲁棒性和泛化之间取得了可比的良好权衡,但在大型对抗扰动下未能实现良好的权衡。该方法在文本嵌入之间增加了最小超球能量(MHE)以提高文本嵌入的跨类别距离,并利用知识蒸馏保持了MHE调整后和原始文本嵌入之间的相似性,以保留不同类别之间的语义信息。此外,该方法还引入了一种文本感知图像(TAI)调整机制,在训练阶段通过基于文本距离的自适应边界(TAM)增加了图像嵌入之间的跨类别距离,并利用知识蒸馏保持了Fine-tuning后和预训练图像嵌入之间的相似性。广泛的实验结果证明了该方法的有效性,在防御各种对抗扰动的同时,保持了原始CLIP模型的零-shot泛化能力。