深度交互的跨模态提示学习

ACLMay, 2023

Deeply Coupled Cross-Modal Prompt Learning

Xuejing Liu, Wei Tang, Jinghui Lu, Rui Zhao, Zhaojun Guo...

TL;DR本文提出了一种基于 CLIP 的深度交互式跨模态提示学习（DCP）方法，可实现视觉和语言之间的灵活相互作用，通过良好连接的多头注意力模块逐步强且稳定地交换各自的表示，并在 11 个图像分类数据集上进行综合少样本学习实验和域自适应能力分析，实验结果显示 DCP 表现出了超凡的少样本泛化性能和具有吸引力的域适应能力。

Abstract

Recent advancements in multimodal foundation models (e.g., CLIP) have excelled in zero-shot generalization. prompt tuning involved in the knowledge transfer from foundation models to downstream tasks has gained s

multimodal foundation models prompt tuning cross-modal prompt learning few-shot learning domain adaptation

发现论文，激发创造

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

MaPLe: 多模态提示学习

本研究提出了多模态提示学习 (MaPLe) 的方法，旨在通过不同的早期阶段分别学习视觉和语言分支的独立提示，以逐步建模分阶段的特征关系，并促进视觉 - 语言提示之间的强耦合，以改善 CLIP 的下游任务结果。结果表明，该方法具有良好的性能和广泛的应用前景。

Oct, 2022

DialCLIP: 增强 CLIP 作为多模态对话检索器

提出了一种名为 DialCLIP 的参数高效的提示调整方法，用于多模态对话检索，通过仅调整总参数的 0.04％实现了在两个广泛认可的基准数据集上的最新性能，突出了该方法的功效和效率，强调其推动多模态对话检索领域发展的潜力。

Jan, 2024

COMMA: 共同表达多模式学习

本研究提出了 Co-Articulated Multi-Modal Learning (COMMA) 方法，通过联合考虑视觉和语言分支的提示来增强两者的表示对齐，并减轻预训练模型中基本知识的遗忘，实现在多个任务中对新类别、新目标数据集和未见域漂移的良好性能提升。

Dec, 2023

MuDPT: 针对大型预训练视觉语言模型的多模式深层联合调整

本文介绍了一种基于多模态深度共生的 Prompt Tuning 方法，通过学习一个模型无关的变换网络，实现了深度的双向自然语言和视觉信息融合，在图像识别和领域外泛化方面表现优异。

Jun, 2023

多提示与深度分割的跨模态学习

本研究提出了分区多模态提示方法（PMPO），将软提示从单个可学习提示扩展到多个提示，以捕获视觉表示的分层上下文深度。此外，我们结合手动设计的模板和可学习的多提示，以提高方法的泛化能力，并在新类别概括、跨数据集评估和领域泛化等三项具有挑战性的任务上验证了它的有效性。

May, 2023

视觉语言模型的提示学习

本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法，以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题，并证明其比手工制作的提示更好。

Sep, 2021

视觉语言理解的情境提示学习

本文提出一种叫做上下文提示学习的框架，用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示，通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。

Jul, 2023

DPL: 视听模型的解耦式提示学习

通过解耦关注力，提出了一种新的方法 Decoupled Prompt Learning (DPL) 来增强 prompt learning 的泛化能力，并在多个基准测试中取得了最先进的性能。

Aug, 2023

双对齐下的上下文感知视觉 - 语言模型提示调优

利用双重对齐提示调整 (DuAl-PT)，结合大规模视觉语言模型和预训练大型语言模型，在少样本识别和基于新样本泛化上取得了卓越的性能，为未来研究提供了强有力的基准。

Sep, 2023