GalLoP: 学习视觉 - 语言模型的全局和局部提示

ECCVJul, 2024

GalLoP: 学习视觉 - 语言模型的全局和局部提示

GalLoP: Learning Global and Local Prompts for Vision-Language Models

Marc Lafon, Elias Ramzi, Clément Rambour, Nicolas Audebert, Nicolas Thome

TL;DR全球局部提示（GalLoP）是一种新的提示学习方法，通过学习多种多样的提示，利用全局和局部视觉特征，以提高视觉 - 语言模型在少样本图像分类中的准确性和鲁棒性。在不同的少样本设置和各种背景下，GalLoP 在准确性方面优于以前的提示学习方法，并且在域泛化和 OOD 检测方面表现出强大的鲁棒性，甚至优于专门的 OOD 检测方法。

Abstract

prompt learning has been widely adopted to efficiently adapt vision-language models (VLMs), e.g. CLIP, for few-shot image classification. Despite their success, most →

prompt learning vision-language models few-shot image classification global-local prompts robustness

发现论文，激发创造

视觉语言理解的情境提示学习

本文提出一种叫做上下文提示学习的框架，用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示，通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。

Jul, 2023

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

视觉语言模型的提示学习

本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法，以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题，并证明其比手工制作的提示更好。

Sep, 2021

POP：面向连续学习的提示

本文提出了 Prompt Of Prompts (POP) 模型，它通过逐步学习一组任务特定 prompt 和一组全局 prompt 的方式来捕捉多个任务之间的信息集成，并证明这个模型在少样本情况下能够优于传统的 CL 方法。

Jun, 2023

构建强韧的图像 - 语言模型提示

本研究通过将多尺度图像特征集成到提示中，提出了一种对于分布偏移具有鲁棒性的提示学习方法，实验结果表明，这种方法在多个基准测试数据集上的鲁棒性和性能有所提高。

Apr, 2023

LoCoOp: 基于 Prompt 学习的少样本场外检测

我们介绍了一种名为 LoCoOp 的新方法，它针对 few-shot OOD 检测进行本地正则化的上下文优化，利用 CLIP 本地特征的部分作为 OOD 特征，并展示了它在大规模 ImageNet OOD 检测基准测试中的优越性。

Jun, 2023

仅使用文本监督在视觉 - 语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。

Jan, 2024

MaPLe: 多模态提示学习

本研究提出了多模态提示学习 (MaPLe) 的方法，旨在通过不同的早期阶段分别学习视觉和语言分支的独立提示，以逐步建模分阶段的特征关系，并促进视觉 - 语言提示之间的强耦合，以改善 CLIP 的下游任务结果。结果表明，该方法具有良好的性能和广泛的应用前景。

Oct, 2022

推动科学中的 AI 公平性：通用领域提示学习助力面向普及的 VLM 研究

大规模视觉语言模型（VLMs）在自然视觉任务中表现出色，推动跨领域的研究者探索特定领域的 VLMs。然而，构建强大的特定领域 VLMs 需要大量的注释数据、大量的电能和计算资源，这些主要是工业界可用的，却制约了学术界对 VLMs 的研究。为了解决这个挑战，促进可持续和公平的 VLMs 研究，我们提出了广义领域提示学习（GDPL）框架。GDPL 通过小规模的特定领域基础模型和最少的提示样本，使 VLMs 的强大识别能力从自然视觉转移到特定领域，而无需大量数据或资源。通过四元网络，GDPL 利用特定领域的基础模型和最少的提示样本为语言分支赋予领域知识，揭示特定领域视觉特征与自然视觉上下文嵌入之间的跨模态关系。同时，GDPL 通过生成的视觉提示特征的分层传导，将视觉分支引向特定领域，建立与视觉语言关系匹配的基础。此外，为了充分发挥 VLMs 的领域自适应潜力，我们引入了一种新颖的低秩自适应方法。对遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域的大量实验证明了 GDPL 的有效性，并展示了在提示学习范式下实现最先进的领域识别性能的能力。我们的框架为可持续和包容性的 VLMs 研究铺平了道路，消除了学术界与工业界之间的障碍。

May, 2024

APoLLo：统一的视觉语言模型适配器与提示学习

APoLLo 是一种统一的多模态方法，结合了 Adapter 和 Prompt 学习用于增强 Vision-Language 模型在 few-shot 环境下的泛化能力，通过引入可训练的交叉注意力适配器层和视觉与语言编码器来加强两种模态之间的对齐，并通过确保编码器分支之间的一致性来防止过拟合，在新颖类别的 10 个不同图像识别数据集上，APoLLo 相对于 MaLPe (SOTA) 实现了高达 6.03% 的相对增益。

Dec, 2023