大型视觉语言模型的少样本自适应研究
本文提出基于adapter的参数高效迁移学习技术,以VL-BART和VLT5为例,在图像文本和视频文本基准测试上统一多任务设置,通过权重共享提高adapter的效率和性能,在图像文本任务和视频文本任务中将adapter的使用提升至总参数的4.18%和3.39%,匹配了整个模型微调的性能,同时对adapter与任务特定提示的组合及V&L预训练对adapter的影响进行了综合分析。
Dec, 2021
提出一种轻量级的适配器方法,通过更新预测接近观察数据点的模型以加快更新速度,并保持经典微调方法外数据的正确性,以实现在小样本学习领域中,在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。
Dec, 2022
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了VLMs的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
通过引入测试时间原型偏移(Test-Time Prototype Shifting,TPS)框架,我们在共享嵌入空间中调制每个类别的原型,动态地学习每个原型的偏移向量,从而弥合领域差距,提高分类准确性,并在减少资源需求的情况下取得创新性能的优势。
Mar, 2024
利用大规模的预先训练的视觉语言模型,通过高效的迁移学习方法解决基类过拟合问题,提出了一种条件原型纠正提示学习方法,有效地纠正了基类示例的偏差并增加了有限数据量,在少样本分类和从基类到新类的泛化任务中实现了最先进的性能。
Apr, 2024
通过研究大型视觉-语言模型,特别是CLIP,有效的调整技术,主要关注软提示调整,这催生了一系列研究。与此同时,测试时数据增强正在成为一个重要的研究领域,它利用图像的多个增强视角来增强零样本泛化能力。相反,我们提出了一种用于测试时数据增强的稳健均值漂移(MTA)方法,它超越了基于提示的方法,而无需进行繁琐的训练过程。此方法是独立和基于API的应用的理想解决方案。此外,我们的方法不依赖于一些先前测试时数据增强技术中使用的临界规则(例如置信度阈值)来过滤增强视角。相反,MTA将每个视角的质量评估变量直接融入其优化过程中,称为内在得分。这个得分与密度模式寻找过程一起进行优化,从而实现了一种高效的无需训练和调整超参数的方法。我们在15个数据集上进行了广泛的基准测试,并展示了MTA的优越性和计算效率。MTA可以轻松部署在零样本模型和最新的少样本方法之上,展示了系统和一致的改进。
May, 2024
研究表明,零温度的TTA方法(ZERO)能够在只进行一次前向传播的情况下,准确性大大超过或与现有技术相当,且速度约为10倍快,内存占用约为13倍少。
May, 2024
近期关于Vision-Language Models(VLMs)的少样本适应研究进展大大提高了其泛化能力,但未充分考虑Parameter-Efficient Fine-Tuning(PEFT)的最新进展。因此,本文引入了Low-Rank Adaptation(LoRA)在少样本适应学习中,并在11个数据集上展示了其潜力,与最先进的基于prompt和adapter的方法进行对比。令人惊讶的是,我们的简单CLIP-LoRA方法在所有目标任务(所有数据集和样本数)上保持相同的超参数的同时,显著提高了性能。当然,我们的结果并不否定普遍学习和基于适配器的研究的潜力,但我们相信我们的强基准方法可用于评估少样本VLMs中这些新兴主题的进展。
May, 2024