使大型视觉语言模型成为优秀的少量学习者
利用大型语言模型作为任务规划者,视觉模型作为工具,通过观察支持图像和使用语境学习指导大型语言模型,利用其总结和推理能力对查询图像进行分类和分割,从而在无需训练的情况下解决了少样本图像分类和分割问题,并在Pascal-5i数据集上取得了最先进的性能。
Nov, 2023
通过整合大型语言模型(LLMs)提升预训练视觉-语言模型(VL)在低样本图像分类中的能力,提出了大型语言模型作为提示学习者(LLaMP)的方法,并在11个数据集上的零样本和小样本图像分类任务中取得了更好的性能。
Dec, 2023
最近在指导的大型视觉语言模型方面取得的进展,使得模型能够轻松生成高层次的基于图像的解释。然而,我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷,并且我们提出了一个多粒度属性为中心的评估基准,用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。
Feb, 2024
通过Meta-Prompting for Visual Recognition (MPVR)方法,仅凭目标任务的简短自然语言描述和相关类别标签的最小信息输入,自动产生一组多样的类别特定提示,从而实现强大的零样本分类器。在多个不同领域的流行的零样本图像识别基准上,使用多个LLMs和VLMs测试,MPVR可以有效地推广,比CLIP提高了最高19.8%和18.2%(平均20个数据集上分别为5.0%和4.5%),依赖于GPT和Mixtral LLMs。
Mar, 2024
本文分析了在使用语言-仅依据进行视觉语义模型(VLM)选择中的两个固有挑战:模态差异和能力差异,并提出了一种称为SWAB的方法来缓解这两个差距,通过最优传输捕捉开源数据集与目标数据集之间的相关性,并将有用的统计信息从开源数据集传输到目标数据集,从而增强VLM在选择中的能力估计。通过在多个VLM和图像分类数据集上进行的实验验证了SWAB的有效性。
Mar, 2024
我们介绍了一种创新的FSCIL框架,利用语言正则化器和子空间正则化器,该框架不仅能够使模型拥抱有限数据的新类别,还能确保对基础类别的性能保持,通过在基础训练阶段利用视觉-语言模型提取的语义信息和在增量训练阶段促进模型对图像和文本语义之间微妙连接的学习。
May, 2024
本研究介绍了CascadeVLM,一种创新的框架,通过有效地利用大型视觉-语言模型(LVLMs)内固有的精细知识,克服了以前基于CLIP的方法的限制。在各种细粒度图像数据集上的实验表明,CascadeVLM在Stanford Cars数据集上显著优于现有模型,达到了令人印象深刻的85.6%的零样本准确性。性能增益分析验证了LVLM对于CLIP不确定的复杂图像的更准确预测,从而提高了整体准确性。我们的框架为有效和高效的细粒度图像分类提供了VLM与LVLM的整体集成方法。
May, 2024
在利用预先训练的视觉-语言模型进行少样本调整以应对下游任务方面取得显著进展的同时,我们的详细实证研究突出了少样本学习结果在训练样本的精心选择上具有显著的依赖性——这是以前的研究忽视了的一个方面。本研究深入探讨了更有效的少样本训练样本选择策略的制定,与依赖随机抽样不同,以增强现有的少样本提示学习方法的潜力。为了实现这一目标,我们评估了各种主动学习技术(如熵和置信度边界)在少样本训练环境中进行实例选择的有效性。此外,我们引入了两种创新的选择方法——代表性(REPRE)和高斯蒙特卡洛(Montecarlo),旨在为与预训练的视觉-语言模型相关的标注主动定位信息丰富的样本。我们的研究结果表明,REPRE和Montecarlo在少样本训练场景中显著优于随机选择和基于主动学习的策略。该研究还强调了这些实例选择方法的模型无关性,为广泛的少样本训练方法提供了灵活的增强。
May, 2024
近期关于Vision-Language Models(VLMs)的少样本适应研究进展大大提高了其泛化能力,但未充分考虑Parameter-Efficient Fine-Tuning(PEFT)的最新进展。因此,本文引入了Low-Rank Adaptation(LoRA)在少样本适应学习中,并在11个数据集上展示了其潜力,与最先进的基于prompt和adapter的方法进行对比。令人惊讶的是,我们的简单CLIP-LoRA方法在所有目标任务(所有数据集和样本数)上保持相同的超参数的同时,显著提高了性能。当然,我们的结果并不否定普遍学习和基于适配器的研究的潜力,但我们相信我们的强基准方法可用于评估少样本VLMs中这些新兴主题的进展。
May, 2024
我们的研究探索了检索增强学习(RAL)在少样本识别中的应用。在这项工作中,我们提出了利用 Vision-Language Models(VLMs)进行 finetuning 的两个阶段方法:第一阶段对混合数据进行端到端 finetuning,第二阶段仅使用少样本数据重新训练分类器。实验证明,该方法在标准基准数据集上取得了最佳性能,准确度比现有方法提高了约 10%。
Jun, 2024