本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter,来有效地增强 Contrastive Vision-Language Pre-training(CLIP)的适应能力,为少样本学习提供了一个计算资源高效的选择。实验证明,Tip-Adapter 在 11 个数据集上均有突出表现,并可以通过少量的模型微调达到 ImageNet 上的最优。
Jul, 2022
我们通过引入双向学习的概念,创新性地将其应用于微调视觉 - 语言模型,并提出了一种新颖的 DualAdapter 方法,通过同时进行正向选择和负向排除来提高 VLM 在下游任务中的识别准确性。在 15 个数据集上的广泛实验结果验证了所提出的 DualAdapter 方法在少样本学习和域泛化任务中优于现有的最先进方法,并且具有竞争性的计算效率。
Mar, 2024
大规模视觉语言模型(VLMs)展示了对未见域数据具有强大的零样本泛化能力。然而,适应预训练的 VLMs 并执行一系列下游任务时,它们容易忘记以前学到的知识并降低其零样本分类能力。为解决这个问题,我们提出了一种独特的选择性双教师知识迁移框架,利用最新的精细调整和原始的预训练 VLMs 作为双教师来保留以前学到的知识和零样本能力。通过仅访问未标记的参考数据集,我们提出的框架通过测量双教师 VLMs 的特征差异来执行选择性知识蒸馏机制。因此,我们的选择性双教师知识蒸馏将缓解以前学到的知识的灾难性遗忘,同时保留预训练 VLMs 的零样本能力。通过对基准数据集进行大量实验,我们证明了我们的提出的框架对于防止灾难性遗忘和零样本退化的最新持续学习方法是有利的。
提出了一种参数高效的持续学习框架,通过在视觉语言模型中动态扩展一个预训练的 CLIP 模型,采用专家混合(Mixture-of-Experts)适配器以应对新任务,并引入分布鉴别自动选择器(DDAS)以保留视觉语言模型的零样本识别能力,并通过各种实验验证,该方法在提升性能的同时减少了 60% 的参数训练负担。
对视觉 - 语言模型的测试时间适应性策略进行系统探索,包括提示工程策略和现有的测试时间适应方法,以提高模型在真实场景中的适应性和鲁棒性。
May, 2024
该论文提出了一种名为动态记忆诱导网络(DMIN)的模型,用于少样本文本分类。该模型利用动态路由提供更多的灵活性,以更好地适应支持集,从而提高少样本分类模型的关键能力,并在 miniRCV1 和 ODIC 数据集上实现了新的最优结果,提高了最佳性能(准确度)约 2~4%。
May, 2020
本文提出了一种新的 DualPath 适应性算法,将图像 transformers 的表示能力有效地转移至视频理解中,包括空间和时间建模,极大地拓展了预训练表示的泛化,同时在四个动作识别基准测试上进行了广泛实验比较。
Mar, 2023
本文通过分析动态记忆网络并提出多项改进,包括一种新的图像输入模块,实现在缺乏支持事实的情况下回答问题,该新型 DMN + 模型成功应用于视觉问答数据集和文本问答数据集上,且无需支持事实监督。
Mar, 2016
本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于 context optimization
Oct, 2021
该论文提出了一种名为 Tip-Adapter 的基于 CLIP 的适配器模型,通过无需训练的键值缓存模型构建配适器权重,极大地提升了 CLIP 的少样本分类能力。
Nov, 2021