本研究提出了多模态提示学习 (MaPLe) 的方法,旨在通过不同的早期阶段分别学习视觉和语言分支的独立提示,以逐步建模分阶段的特征关系,并促进视觉 - 语言提示之间的强耦合,以改善 CLIP 的下游任务结果。结果表明,该方法具有良好的性能和广泛的应用前景。
Oct, 2022
利用多模态对齐提示(MmAP)和创新的多任务提示学习框架,本文在多任务学习中实现了显著的性能改进,同时仅利用约 0.09%的可训练参数。
Dec, 2023
通过迭代利用图像和当前的编码信息,我们提出了一种新颖的方法 —— 渐进式多模态条件 Prompt 调整(ProMPT),通过多模态提示的方式使视觉 - 语言特征逐步对齐,从而实现从粗糙到准确的分类。在所有设置中,广泛的实验证明了 ProMPT 方法相对于现有方法的优越性。
Apr, 2024
通过使用 Token-wise Adaptive for Multi-modal Prompt Learning (APLe) 在顺序方式中对视觉和语言两个模态的提示进行调整,APLe 解决了视觉 - 语言模型中的挑战,提高了提示学习的性能,具有与最先进技术相媲美的泛化性能。
Jan, 2024
通过对多模态提示的直接分析,我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能,从而提出了偏差调优的方法,并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
本研究提出了 Co-Articulated Multi-Modal Learning (COMMA) 方法,通过联合考虑视觉和语言分支的提示来增强两者的表示对齐,并减轻预训练模型中基本知识的遗忘,实现在多个任务中对新类别、新目标数据集和未见域漂移的良好性能提升。
通过考虑模型和数据的角度,提出了 MMICL 去解决图像与文本交叉多模态提示的问题,通过无需训练的数据更好地适应用户真实应用中复杂的提示,其中包括多模态上下文与交叉的图像和文本、每个图像的文本参考以及具有空间、逻辑或时间关系的多图像数据。在广泛的视觉 - 语言任务中,特别是在复杂推理基准测试中,MMICL 取得了新的最先进的零样本和少样本性能。同时,对 ScienceQA-IMG 上的实验表明 MMICL 成功缓解了视觉 - 语言模型中的语言偏差问题,我们相信这是 MMICL 卓越性能背后的原因。
Sep, 2023
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
将行人属性识别问题(PAR)构建为视觉语言融合问题,充分利用行人图像与属性标签之间的关系,在特征嵌入方面采用预训练的视觉 - 语言模型 CLIP 作为骨干网络,并通过对比学习目标和 Transformer 层来捕捉像素之间的远程关系,最后采用多模态 Transformer 有效地融合双重特征并使用前馈网络来预测属性。该算法在 PAR 领域中取得了最新的最优结果。