May, 2024

视觉语言模型的低秩少样本适应

TL;DR近期关于 Vision-Language Models(VLMs)的少样本适应研究进展大大提高了其泛化能力,但未充分考虑 Parameter-Efficient Fine-Tuning(PEFT)的最新进展。因此,本文引入了 Low-Rank Adaptation(LoRA)在少样本适应学习中,并在 11 个数据集上展示了其潜力,与最先进的基于 prompt 和 adapter 的方法进行对比。令人惊讶的是,我们的简单 CLIP-LoRA 方法在所有目标任务(所有数据集和样本数)上保持相同的超参数的同时,显著提高了性能。当然,我们的结果并不否定普遍学习和基于适配器的研究的潜力,但我们相信我们的强基准方法可用于评估少样本 VLMs 中这些新兴主题的进展。