COMMA: 共同表达多模式学习

AAAIDec, 2023

COMMA: Co-Articulated Multi-Modal Learning

Lianyu Hu, Liqing Gao, Zekang Liu, Chi-Man Pun, Wei Feng

TL;DR本研究提出了 Co-Articulated Multi-Modal Learning (COMMA) 方法，通过联合考虑视觉和语言分支的提示来增强两者的表示对齐，并减轻预训练模型中基本知识的遗忘，实现在多个任务中对新类别、新目标数据集和未见域漂移的良好性能提升。

Abstract

Pretrained large-scale vision-language models such as CLIP have demonstrated excellent generalizability over a series of downstream tasks. However, they are sensitive to the variation of input text prompts and need a selection of prompt templates to achieve satisfactory performance. Re

pretrained models vision-language prompt templates representation alignment generalization

发现论文，激发创造

MaPLe: 多模态提示学习

本研究提出了多模态提示学习 (MaPLe) 的方法，旨在通过不同的早期阶段分别学习视觉和语言分支的独立提示，以逐步建模分阶段的特征关系，并促进视觉 - 语言提示之间的强耦合，以改善 CLIP 的下游任务结果。结果表明，该方法具有良好的性能和广泛的应用前景。

Oct, 2022

深度交互的跨模态提示学习

本文提出了一种基于 CLIP 的深度交互式跨模态提示学习（DCP）方法，可实现视觉和语言之间的灵活相互作用，通过良好连接的多头注意力模块逐步强且稳定地交换各自的表示，并在 11 个图像分类数据集上进行综合少样本学习实验和域自适应能力分析，实验结果显示 DCP 表现出了超凡的少样本泛化性能和具有吸引力的域适应能力。

May, 2023

视觉语言模型的提示学习

本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法，以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题，并证明其比手工制作的提示更好。

Sep, 2021

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

理解预训练的视觉语言模型的多模态提示

通过对多模态提示的直接分析，我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能，从而提出了偏差调优的方法，并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。

Dec, 2023

视觉 - 语言模型的多模态特征提示

我们提出了一种多模态属性提示方法（MAP），通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉 - 语言模型（VLMs）在少样本情况下的一些局限性，实验结果表明我们的方法在 11 个数据集上表现优于现有方法。

Mar, 2024

视觉语言理解的情境提示学习

本文提出一种叫做上下文提示学习的框架，用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示，通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。

Jul, 2023

仅使用文本监督在视觉 - 语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。

Jan, 2024

盲人视觉 - 语言一致性引导的多模态提示学习用于 AI 生成图像质量评估

提出了一种基于视觉 - 语言一致性指导的多模态提示学习方法，称为 CLIP-AGIQA，用于盲目的 AI 生成图像质量评估，该方法在两个公共 AGIQA 数据集上的实验结果表明其优于现有的质量评估模型。

Jun, 2024

卷积提示与语言模型相遇的持续学习

提出了 ConvPrompt，一种新颖的卷积提示创建机制，通过维护逐层共享的嵌入，实现了层特定学习和更好的概念传递，从而克服了 Catastrophic Forgetting 在 Continual Learning 中的问题。通过使用卷积的智能化利用，可以保持较低的参数开销而不影响性能，并通过大型语言模型生成每个类别的细粒度文本描述，用于获取任务相似性并动态决定要学习的提示数量。在广泛的实验证明了 ConvPrompt 的优越性，并显著提高了 SOTA 约 3%，参数开销更少。同时进行了强有力的模块剥离以剖析不同组成部分的重要性。

Mar, 2024