通过正交学习和交叉正则化增强视觉-语言模型的鲁棒性

Jul, 2024

通过正交学习和交叉正则化增强视觉-语言模型的鲁棒性

Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization

Jinlong Li, Zequn Jie, Elisa Ricci, Lin Ma, Nicu Sebe

TL;DR通过引入正交微调方法和交叉正则化策略，本文提出的OrthCR提升了视觉-语言模型（VLMs）的稳健性和泛化能力，同时保持了零样本泛化的稳定性。

Abstract

Efficient finetuning of vision-language models (VLMs) like clip for specific downstream tasks is gaining significant attention. Previous w

发现论文，激发创造

定位潜在更新用于微调视觉语言模型

提出一种轻量级的适配器方法，通过更新预测接近观察数据点的模型以加快更新速度，并保持经典微调方法外数据的正确性，以实现在小样本学习领域中，在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。

Dec, 2022

通过提示规范化对视觉语言模型进行去偏微调

该论文提出了一种基于提示正则化的新模式，用于在下游任务中微调大规模视觉语言预训练模型。通过提示预训练模型进行预测，来规范微调，从而保持其对迁移领域的高性能。同时，通过引入 Kullback-Leibler 损失等手段，自适应权衡预训练与下游任务训练过程中的差异，进一步提高模型性能。

Jan, 2023

解耦语言预训练引导视觉-语言学习

该论文提出了一种新的方法，使用 Prompt-Transformer 模型，基于语言数据而不是图像-文本配对来预测理想 prompts，从而优化了资源密集型视觉语言预训练过程，提高了大语言模型的性能。

Jul, 2023

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了VLMs的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

超越单一强度：通用视觉语言模型的定制集成

通过使用集合策略，本研究初步提出了一种增强视觉-语言模型在泛化性能方面的方法，取得了新的最先进性能。

Nov, 2023

基于锚点的视觉语言模型的鲁棒微调

我们提出了一种补偿微调过程的方法，利用具有丰富语义信息的辅助监督作为锚点来保留原始的CLIP特征空间，从而保持了OOD泛化性能，并在领域迁移和零样本学习基准上取得了新的最先进结果。

Apr, 2024

关于视觉语言模型的测试时零样本泛化：我们真的需要提示学习吗？

通过研究大型视觉-语言模型，特别是CLIP，有效的调整技术，主要关注软提示调整，这催生了一系列研究。与此同时，测试时数据增强正在成为一个重要的研究领域，它利用图像的多个增强视角来增强零样本泛化能力。相反，我们提出了一种用于测试时数据增强的稳健均值漂移（MTA）方法，它超越了基于提示的方法，而无需进行繁琐的训练过程。此方法是独立和基于API的应用的理想解决方案。此外，我们的方法不依赖于一些先前测试时数据增强技术中使用的临界规则（例如置信度阈值）来过滤增强视角。相反，MTA将每个视角的质量评估变量直接融入其优化过程中，称为内在得分。这个得分与密度模式寻找过程一起进行优化，从而实现了一种高效的无需训练和调整超参数的方法。我们在15个数据集上进行了广泛的基准测试，并展示了MTA的优越性和计算效率。MTA可以轻松部署在零样本模型和最新的少样本方法之上，展示了系统和一致的改进。

May, 2024

预训练视觉-语言模型的高效和长尾泛化

针对使CLIP适应现实世界的挑战，我们提出了一种名为Candle的新框架，通过引入新的损失函数、跨模态注意力和虚拟原型来实现高效、长尾泛化，该方法在11个不同数据集上展示出了卓越的性能，并大大减少了训练时间。

Jun, 2024

完全微调的CLIP模型是高效的小样本学习器

通过CLIP-CITE框架，我们在最小参数调整的情况下，通过细致改进整个VLMs并整合知识蒸馏技术以保留获得的知识，有效地提升了特定任务在有限监督下的性能，同时保留了VLMs在其他数据集上的适应性。

Jul, 2024

视觉-语言模型的高效泛化的量化提示

在这篇论文中，我们研究了大规模预训练视觉-语言模型中的过拟合和灾难性遗忘问题，并提出了一种基于量化的正则化方法，以提高模型的泛化能力和专业化能力，并降低存储和推断成本。

Jul, 2024