多模态基础模型的小样本自适应:综述
本文提出了一种用于多模态多任务学习的 few-shot 学习框架,采用预训练的视觉和语言模型,并通过任务特定的超网络和对比度微调来适应不同的场景,学习视觉推理、视觉问答和自然语言理解等重要任务。
Feb, 2023
本文提出了一种名为 MA-CLIP 的新方法,旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别,从而解决传统方法中的参数调优和时间建模的问题。
Aug, 2023
通过部分冻结的简单微调变体和上下文化标签,提出了一种在有限样本大小下超越传统微调方法的方法,从而显著提高了医学图像的语义嵌入区分度,使得在 1-shot 设置下与常用的 one-hot 标签和其他语义监督方法相比性能提高了 3%-5%。
Dec, 2023
在具有有限训练数据并在分布转变下无法有效推广的情况下,传统的迁移学习方法效果有限。然而,最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题,在此提出了一种适用于流行的视觉 - 语言基础模型 CLIP 的小样本微调方法,并对具有现实分布转变的具有挑战性的基准数据集进行了评估。实验证明,在训练数据供应的各个级别上,与只有视觉的模型相比,少样本 CLIP 微调在内部分布准确性和外部分布准确性方面表现更好,这为在使用真实世界数据的小样本学习应用中采用基础模型提供了强有力的动机。
Nov, 2023
为了解决深度学习中少样本学习的挑战,我们提出了一个简单而有效的框架,专门设计用于利用文本信息和语言模型,通过学习可调的提示来显式地利用预训练的语言模型的零样本能力,并且直接将视觉特征和文本特征进行推断而无需复杂设计的融合模块,进一步运用自集成和蒸馏来增强这些组件,在四个广泛使用的少样本数据集上进行了大量实验证明我们的简单框架取得了令人印象深刻的结果,特别值得注意的是,在 1-shot 学习任务中,我们的分类准确率平均超过基准方法 3.0%。
Jan, 2024
基于大规模的鲁棒性基准测试,本研究通过评估 CLIP 模型在自然分布偏移和对抗攻击下的性能,发现零样本多模态模型的鲁棒性明显不足,强调了对零样本多模态模型的鲁棒性进行改进的重要性。
Mar, 2024
本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter,来有效地增强 Contrastive Vision-Language Pre-training(CLIP)的适应能力,为少样本学习提供了一个计算资源高效的选择。实验证明,Tip-Adapter 在 11 个数据集上均有突出表现,并可以通过少量的模型微调达到 ImageNet 上的最优。
Jul, 2022