本文提出一种新的视觉语言模型fine-tuning方式——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于context optimization
Oct, 2021
本文提出CLIP-benchmark,对CLIP及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。
Mar, 2022
论文提出了一种用于显式建模时间序列的新型模块,通过视频精调CLIP模型,可以将图像级别的表示有效地转移到视频领域,取得了良好的实验效果。
Dec, 2022
提出一种轻量级的适配器方法,通过更新预测接近观察数据点的模型以加快更新速度,并保持经典微调方法外数据的正确性,以实现在小样本学习领域中,在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。
通过将视觉语言模型(VLMs)应用于下游监督学习任务,本文探讨了无监督微调CLIP模型,解决了未知类别的样本和识别预定义类别实例的问题,并提出了一种称为通用熵优化(UEO)的简单有效的微调方法。通过广泛的实验,我们证明了UEO方法在泛化能力和检测未知类别样本方面优于基线方法。
Aug, 2023
在具有有限训练数据并在分布转变下无法有效推广的情况下,传统的迁移学习方法效果有限。然而,最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题,在此提出了一种适用于流行的视觉-语言基础模型CLIP的小样本微调方法,并对具有现实分布转变的具有挑战性的基准数据集进行了评估。实验证明,在训练数据供应的各个级别上,与只有视觉的模型相比,少样本CLIP微调在内部分布准确性和外部分布准确性方面表现更好,这为在使用真实世界数据的小样本学习应用中采用基础模型提供了强有力的动机。
Nov, 2023
最近的研究应用了参数高效微调技术(PEFTs)来有效缩小预训练和下游任务之间的性能差距。该研究发现,对于与预训练一致的下游微调任务,数据规模不再影响性能,而可微参数规模的影响并不单调,这种观察可指导PEFTs的训练策略选择。
Mar, 2024
通过在推理过程中自动构建文本提示并使用其作为文本监督,CLIPArTT方法在不需要额外培训的情况下,通过独特的、最小侵入性的文本提示调优过程,使预训练视觉-语言模型在各种数据集和环境中动态提升性能并改善适应性。
May, 2024
通过CLIP-CITE框架,我们在最小参数调整的情况下,通过细致改进整个VLMs并整合知识蒸馏技术以保留获得的知识,有效地提升了特定任务在有限监督下的性能,同时保留了VLMs在其他数据集上的适应性。
Jul, 2024
通过引入正交微调方法和交叉正则化策略,本文提出的OrthCR提升了视觉-语言模型(VLMs)的稳健性和泛化能力,同时保持了零样本泛化的稳定性。