TIMA: 文本-图像相互感知的零样本鲁棒性与泛化能力平衡

May, 2024

TIMA: 文本-图像相互感知的零样本鲁棒性与泛化能力平衡

TIMA: Text-Image Mutual Awareness for Balancing Zero-Shot Adversarial Robustness and Generalization Ability

Fengji Ma, Li Liu, Hei Victor Cheng

TL;DR通过引入一种新的文本图像相互感知（TIMA）方法，这项工作提出了一种旨在在大规模基础模型中实现零-shot对抗鲁棒性并保持零-shot泛化的挑战，重点关注流行的对比语言图像预训练（CLIP）模型。该方法在小型对抗扰动下在零-shot对抗鲁棒性和泛化之间取得了可比的良好权衡，但在大型对抗扰动下未能实现良好的权衡。该方法在文本嵌入之间增加了最小超球能量（MHE）以提高文本嵌入的跨类别距离，并利用知识蒸馏保持了MHE调整后和原始文本嵌入之间的相似性，以保留不同类别之间的语义信息。此外，该方法还引入了一种文本感知图像（TAI）调整机制，在训练阶段通过基于文本距离的自适应边界（TAM）增加了图像嵌入之间的跨类别距离，并利用知识蒸馏保持了Fine-tuning后和预训练图像嵌入之间的相似性。广泛的实验结果证明了该方法的有效性，在防御各种对抗扰动的同时，保持了原始CLIP模型的零-shot泛化能力。

Abstract

This work addresses the challenge of achieving zero-shot adversarial robustness while preserving zero-shot generalization in large-scale foundati