基于锚点的视觉语言模型的鲁棒微调
本文提出CLIP-benchmark,对CLIP及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。
Mar, 2022
提出一种轻量级的适配器方法,通过更新预测接近观察数据点的模型以加快更新速度,并保持经典微调方法外数据的正确性,以实现在小样本学习领域中,在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。
Dec, 2022
本文探讨了如何通过多模态概念匹配框架来评估诸如CLIP等最新视觉语言模型的fine-tuning方法对于少样本下游任务的超出分布检测性能的影响,并发现所选的ODD得分方法至关重要,MCM得分方法表现最佳,prompt learning在超出分布检测性能上表现最好。
Jun, 2023
本文提出了一个统一的框架,以利用精细的信息实现零样本视觉语言学习,涵盖了多个任务,如视觉问题回答,SNLI-VE和VCR,并证实了该方法的有效性和泛化性。
Jul, 2023
在具有有限训练数据并在分布转变下无法有效推广的情况下,传统的迁移学习方法效果有限。然而,最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题,在此提出了一种适用于流行的视觉-语言基础模型CLIP的小样本微调方法,并对具有现实分布转变的具有挑战性的基准数据集进行了评估。实验证明,在训练数据供应的各个级别上,与只有视觉的模型相比,少样本CLIP微调在内部分布准确性和外部分布准确性方面表现更好,这为在使用真实世界数据的小样本学习应用中采用基础模型提供了强有力的动机。
Nov, 2023
在本论文中,我们首先展示了,经过足够时间的微调但没有适当的正则化,视觉-语言模型在给定数据集中往往会过度拟合已知类别,导致对未知类别的表现下降。然后,我们提出了一种新颖的方法OGEN来解决这个问题,在关注点主要是改进经过微调模型的未知类别(OOD)泛化能力。具体而言,我们引入了一种类条件特征生成器,通过仅使用任何未知类别的类名,合成OOD特征。这些合成特征将提供关于未知类别的有用知识,并在联合优化时有助于规范ID和OOD数据之间的决策边界。同样重要的是,我们的自适应自蒸馏机制用于规范特征生成模型,在联合优化期间自适应地传递模型状态之间的知识,以进一步防止过度拟合。实验证实,我们的方法在不同设置下提供了令人信服的OOD泛化性能增益。
Jan, 2024
通过挖掘开放语义作为锚点,并采用转换器模块进行从图像-锚点关系到图像-目标关系的关系转换,我们的方法在少样本分类设置中表现出色。
Jun, 2024
通过CLIP-CITE框架,我们在最小参数调整的情况下,通过细致改进整个VLMs并整合知识蒸馏技术以保留获得的知识,有效地提升了特定任务在有限监督下的性能,同时保留了VLMs在其他数据集上的适应性。
Jul, 2024
通过引入正交微调方法和交叉正则化策略,本文提出的OrthCR提升了视觉-语言模型(VLMs)的稳健性和泛化能力,同时保持了零样本泛化的稳定性。
Jul, 2024