SuS-X:无需训练的仅名称迁移视觉语言模型
该论文提出了一种名为 Tip-Adapter 的基于 CLIP 的适配器模型,通过无需训练的键值缓存模型构建配适器权重,极大地提升了 CLIP 的少样本分类能力。
Nov, 2021
本文提出CLIP-benchmark,对CLIP及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。
Mar, 2022
本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似CLIP的视觉语言模型的传递性能。该方法实验结果显示,在ImageNet以及其他10个数据集上,与原始CLIP相比,UPL具有更优秀的传输表现,并且增强版的UPL在大多数数据集上甚至能够与8-shot CoOp和8-shot TIP-Adapter竞争。
Apr, 2022
本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter,来有效地增强 Contrastive Vision-Language Pre-training(CLIP)的适应能力,为少样本学习提供了一个计算资源高效的选择。实验证明,Tip-Adapter 在 11 个数据集上均有突出表现,并可以通过少量的模型微调达到 ImageNet 上的最优。
Jul, 2022
提出一种轻量级的适配器方法,通过更新预测接近观察数据点的模型以加快更新速度,并保持经典微调方法外数据的正确性,以实现在小样本学习领域中,在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。
Dec, 2022
本文探讨了通过转移学习和最小更新已经训练好的视觉模型和语言模型创建对比视觉-语言模型的效率和性能,发现在少量参数更新(<7%)的情况下即可达到全模型训练的性能,而在更新特定组件(<1%的参数)的情况下,也可以达到75%的全模型训练性能。
Mar, 2023
在具有有限训练数据并在分布转变下无法有效推广的情况下,传统的迁移学习方法效果有限。然而,最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题,在此提出了一种适用于流行的视觉-语言基础模型CLIP的小样本微调方法,并对具有现实分布转变的具有挑战性的基准数据集进行了评估。实验证明,在训练数据供应的各个级别上,与只有视觉的模型相比,少样本CLIP微调在内部分布准确性和外部分布准确性方面表现更好,这为在使用真实世界数据的小样本学习应用中采用基础模型提供了强有力的动机。
Nov, 2023
通过 Zoom-shot 方法,利用多模态损失函数将 CLIP 潜空间与预训练视觉编码器的潜空间进行线性映射,从而在粗粒度和细粒度分类数据集上提升了现有的零样本能力,实现了下一代 VLMs 的开发。
Jan, 2024
通过对生成图像进行微调,本文研究目的是解决在生成的数据集上微调以特定分类模型的视觉-语言模型时所面临的挑战,并提供两种正则化方法来克服实际图像与生成图像之间的领域差异。经过广泛的实验验证,所提出的分析和正则化技术有效减轻了一直被忽视的领域差异,并使得在生成图像上的训练达到了最先进的性能。
Jun, 2024