LOBG：减少过拟合以提高视觉-语言模型的泛化能力

Oct, 2024

LOBG：减少过拟合以提高视觉-语言模型的泛化能力

LOBG:Less Overfitting for Better Generalization in Vision-Language Model

Chenhao Ding, Xinyuan Gao, Songlin Dong, Yuhang He, Qiang Wang...

TL;DR本研究针对现有视觉-语言模型（VLM）在下游任务中因过拟合导致的泛化能力下降问题，提出了LOBG框架。通过使用CLIP过滤细粒度前景信息，并结合结构拓扑保持（STP）损失和层级逻辑蒸馏（HLD），显著提升了模型的泛化能力，减轻了过拟合现象。

Abstract

Existing prompt learning methods in Vision-Language Models (VLM) have effectively enhanced the transfer capability of VLM to downstream tasks, but they suffer from a significant decline in Generalization due to s

发现论文，激发创造

基于贝叶斯提示学习的图像-语言模型泛化

研究使用变分推理解决Empirical Risk Minimization在prompt learning中的分布偏移问题，在15个用例中通过Bayesian prompt learning实现了更好的泛化性能。

Oct, 2022

解耦语言预训练引导视觉-语言学习

该论文提出了一种新的方法，使用 Prompt-Transformer 模型，基于语言数据而不是图像-文本配对来预测理想 prompts，从而优化了资源密集型视觉语言预训练过程，提高了大语言模型的性能。

Jul, 2023

基于梯度约束的锐度感知提示学习用于视觉语言模型

该研究纸针对一个新颖的权衡问题，即在视觉语言模型（VLM）的可推广提示学习中，提高对未知类别的性能同时保持对已知类别的性能。通过分析当前方法和广泛使用的锐度感知最小化（SAM）的损失地形，我们得出结论：权衡性能与损失值和损失锐度相关，而两者都是必不可少的。然而，我们发现现有方法的优化梯度在整个优化过程中不能始终保持与损失值和损失锐度的高一致性。因此，我们提出了一种基于SAM的新方法，称为梯度约束锐度感知上下文优化（GCSCoOp），以动态约束优化梯度，从而同时实现上述的两个优化目标。广泛的实验证实了GCSCoOp在权衡问题上的有效性。

Sep, 2023

重新参数化的低秩提示：在0.5K参数范围内泛化视觉语言模型

通过重新参数化低秩提示（RLP），我们设计了一种新型提示，用于高效和有效地适应基于视觉和语言的模型，并显著增加了传统提示调整的平均下游准确性，仅使用0.5K的参数。

Dec, 2023

概念引导下的提示学习进行视觉-语言模型泛化

通过概念引导提示学习的方式，CPL方法显著提高了通用化性能。

Jan, 2024

跨域泛化的过渡式视觉-语言提示学习

通过使用深度视觉提示以解决域不变性问题，结合语言提示以确保类别可分离性，以及自适应权重机制来平衡域不变性和类别可分离性，本文介绍了一种新的提示学习策略，并通过广泛实验证明深度视觉提示有效提取域不变特征，显著提高深度模型的泛化能力，在三个数据集上取得了最先进的性能。

Apr, 2024

关于视觉语言模型的测试时零样本泛化：我们真的需要提示学习吗？

通过研究大型视觉-语言模型，特别是CLIP，有效的调整技术，主要关注软提示调整，这催生了一系列研究。与此同时，测试时数据增强正在成为一个重要的研究领域，它利用图像的多个增强视角来增强零样本泛化能力。相反，我们提出了一种用于测试时数据增强的稳健均值漂移（MTA）方法，它超越了基于提示的方法，而无需进行繁琐的训练过程。此方法是独立和基于API的应用的理想解决方案。此外，我们的方法不依赖于一些先前测试时数据增强技术中使用的临界规则（例如置信度阈值）来过滤增强视角。相反，MTA将每个视角的质量评估变量直接融入其优化过程中，称为内在得分。这个得分与密度模式寻找过程一起进行优化，从而实现了一种高效的无需训练和调整超参数的方法。我们在15个数据集上进行了广泛的基准测试，并展示了MTA的优越性和计算效率。MTA可以轻松部署在零样本模型和最新的少样本方法之上，展示了系统和一致的改进。

May, 2024

视觉-语言模型的高效泛化的量化提示

在这篇论文中，我们研究了大规模预训练视觉-语言模型中的过拟合和灾难性遗忘问题，并提出了一种基于量化的正则化方法，以提高模型的泛化能力和专业化能力，并降低存储和推断成本。

Jul, 2024

重新审视视觉语言模型的提示预训练

本研究解决了在视觉语言模型提示预训练中有限可学习提示面临的欠拟合风险和泛化能力不足的问题。我们提出了一种通用框架——重新审视提示预训练（RPP），通过引入不共享的个体查询、键和值学习提示及利用预训练CLIP教师模型的软标签，来提升模型的适应能力和泛化性能。实验表明，RPP在多个基准测试中表现出色，证明了其在各类视觉识别任务中的强大传递能力。

Sep, 2024

视觉语言模型的混合提示学习

本文研究了传统提示学习方法在适应新任务时面临的挑战，如无法捕捉数据集中的多样性和易于过拟合。提出了一种混合软提示学习方法，通过路由模块动态选择适合每个实例的提示，从而大幅提高在少样本学习和领域泛化中的效果。该方法在11个数据集上的验证显示出明显的性能提升。

Sep, 2024