May, 2024

视觉语言模型的低秩少样本适应

TL;DR近期关于Vision-Language Models(VLMs)的少样本适应研究进展大大提高了其泛化能力,但未充分考虑Parameter-Efficient Fine-Tuning(PEFT)的最新进展。因此,本文引入了Low-Rank Adaptation(LoRA)在少样本适应学习中,并在11个数据集上展示了其潜力,与最先进的基于prompt和adapter的方法进行对比。令人惊讶的是,我们的简单CLIP-LoRA方法在所有目标任务(所有数据集和样本数)上保持相同的超参数的同时,显著提高了性能。当然,我们的结果并不否定普遍学习和基于适配器的研究的潜力,但我们相信我们的强基准方法可用于评估少样本VLMs中这些新兴主题的进展。