哪些特点构成视觉-语言模型的好的少样本示例？

May, 2024

哪些特点构成视觉-语言模型的好的少样本示例？

What Makes Good Few-shot Examples for Vision-Language Models?

Zhaojun Guo, Jinghui Lu, Xuejing Liu, Rui Zhao, ZhenXing Qian...

TL;DR在利用预先训练的视觉-语言模型进行少样本调整以应对下游任务方面取得显著进展的同时，我们的详细实证研究突出了少样本学习结果在训练样本的精心选择上具有显著的依赖性——这是以前的研究忽视了的一个方面。本研究深入探讨了更有效的少样本训练样本选择策略的制定，与依赖随机抽样不同，以增强现有的少样本提示学习方法的潜力。为了实现这一目标，我们评估了各种主动学习技术（如熵和置信度边界）在少样本训练环境中进行实例选择的有效性。此外，我们引入了两种创新的选择方法——代表性（REPRE）和高斯蒙特卡洛（Montecarlo），旨在为与预训练的视觉-语言模型相关的标注主动定位信息丰富的样本。我们的研究结果表明，REPRE和Montecarlo在少样本训练场景中显著优于随机选择和基于主动学习的策略。该研究还强调了这些实例选择方法的模型无关性，为广泛的少样本训练方法提供了灵活的增强。

Abstract

Despite the notable advancements achieved by leveraging pre-trained vision-language (VL) models through few-shot tuning for downstream tasks, our detailed empirical study highlights a significant dependence of few-shot learning outcomes on the careful selection of →

发现论文，激发创造

多重语义下走向少样本学习的初步探索

本研究关注于使用额外语义信息以便在少量样本时进行图像分类，研究表明组合多种语义信息可以带来更好的效果。

Jun, 2019

让预训练语言模型成为更好的少样本学习者

LM-BFF提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种NLP任务上的性能。通过与传统的 fine-tuning 方法相比，LM-BFF组合的技术在低资源环境下具有显著改进，最高可达30％，平均提高11％。

Dec, 2020

语言模型实现真正的小样本学习

评估少量样本学习模型在没有未使用样本的情况下的表现，发现先前的工作对于LM prompt 和超参数的选择方式大大低估了预训练语言模型在小样本学习方面的能力。

May, 2021

良好的提示价值数百万个参数：面向低资源的基于提示的视觉语言模型学习

本论文研究了基于prompt的低资源视觉语言（VL）任务few-shot学习。对大规模预训练的VL模型进行了实验，证明FewVLM在VQA任务上的效果优于Frozen，而且能够达到比更大的模型PICa相当的结果。

Oct, 2021

预训练语言模型为什么比零/少样本学习者更好？

本文提出了一种理论框架，以解释在零/少样本场景下提示学习的功效，我们进一步假设语言差异可以衡量提示的质量，并且通过基于perplexity的注释无关模板选择方法，使我们能够提前预测提示性能。

Sep, 2022

视觉语言模型中的主动提示学习

基于现有观察，我们提出了一个名为PCB的新型主动学习框架，对预训练视觉语言模型（VLMs）进行自适应，以解决标签获取成本高的问题，并在七个真实数据集上实验证明，在性能上超越了传统的主动学习和随机取样方法。

Nov, 2023

少即是多: 多模态少样本学习的深入研究

为了解决深度学习中少样本学习的挑战，我们提出了一个简单而有效的框架，专门设计用于利用文本信息和语言模型，通过学习可调的提示来显式地利用预训练的语言模型的零样本能力，并且直接将视觉特征和文本特征进行推断而无需复杂设计的融合模块，进一步运用自集成和蒸馏来增强这些组件，在四个广泛使用的少样本数据集上进行了大量实验证明我们的简单框架取得了令人印象深刻的结果，特别值得注意的是，在1-shot学习任务中，我们的分类准确率平均超过基准方法3.0%。

Jan, 2024

视觉语言模型的低秩少样本适应

近期关于Vision-Language Models（VLMs）的少样本适应研究进展大大提高了其泛化能力，但未充分考虑Parameter-Efficient Fine-Tuning（PEFT）的最新进展。因此，本文引入了Low-Rank Adaptation（LoRA）在少样本适应学习中，并在11个数据集上展示了其潜力，与最先进的基于prompt和adapter的方法进行对比。令人惊讶的是，我们的简单CLIP-LoRA方法在所有目标任务（所有数据集和样本数）上保持相同的超参数的同时，显著提高了性能。当然，我们的结果并不否定普遍学习和基于适配器的研究的潜力，但我们相信我们的强基准方法可用于评估少样本VLMs中这些新兴主题的进展。

May, 2024

使大型视觉语言模型成为优秀的少量学习者

本研究解决了少量分类任务中大型视觉语言模型（LVLMs）在提取有用信息方面的不足，尤其是在学习特定响应格式和位置偏差问题。通过采用元学习策略和丰富的元任务构建，提升了模型提取少量支持数据的信息能力，实验结果表明该方法在多个数据集上表现优异，具有重要的实际应用潜力。

Aug, 2024

视觉语言模型的主动学习

本研究针对当前视觉语言模型（VLM）在特定计算机视觉任务上表现不及监督深度模型的问题，提出了一种新的主动学习框架，通过从未标记数据中选择少量信息样本进行注释，以提升其零-shot分类性能。实验结果表明，该方法在多个图像分类数据集上优于现有的主动学习方案，显著提高了VLM的零-shot表现。

Oct, 2024