基于最优输运的 PLOT 方法用于视觉语言模型的提示学习

ICLROct, 2022

基于最优输运的 PLOT 方法用于视觉语言模型的提示学习

PLOT: Prompt Learning with Optimal Transport for Vision-Language Models

Guangyi Chen, Weiran Yao, Xiangchen Song, Xinyue Li, Yongming Rao...

TL;DR这篇文章提出了一种利用 optimal transport 算法将视觉与文本模态进行匹配的方法，在此基础上学习出多种全面的 prompt，优化输入图像的分类效果，两阶段优化策略取得了很好的效果。

Abstract

With the increasing attention to large vision-language models such as clip, there has been a significant amount of effort dedicated to building efficient →

vision-language models clip prompts optimal transport few-shot recognition

发现论文，激发创造

视觉语言理解的情境提示学习

本文提出一种叫做上下文提示学习的框架，用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示，通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。

Jul, 2023

通过最优传输促进联邦学习中的全局和局部协作

通过使用最优传输，我们提出了联邦化的提示协作方法（FedOTP），该方法采用高效的合作提示学习策略，以在每个客户端上捕获多样的类别特征，从而在数据异构性方面优于现有方法。

Feb, 2024

ZegOT: 通过文本提示的最优输运实现零样本分割

本研究提出一种基于 CLIP 和 text-prompt learning 的零样本分割方法，通过最优传输匹配多个文本提示和冻结的图像嵌入来提高分割性能，并且通过深度局部特征对齐进一步优化。经过大量实验证明，该方法在所选数据集上取得了与之前最先进方法相媲美的表现。

Jan, 2023

跨模态调整多模式令牌级提示对齐

利用最优传输的多模式令牌级调优框架，发现了多种视觉概念，实现了精确的语义对齐，优于传统方法。

Sep, 2023

PLOT-TAL -- 基于优化输运的少样本时序动作定位的提示学习

本论文介绍了一种新颖的少样本学习中的时间动作定位 (TAL) 方法，通过在实际视频中泛化不同情境的能力来解决常规单提示学习方法存在的过拟合问题。采用多提示学习框架，增强了每个动作的一组多样化提示，更有效地捕捉通用特征并减少过拟合风险。此外，利用最优输运理论，高效地将这些提示与动作特征对齐，优化了适应视频数据多方面特性的综合表示。实验证明了我们提出的多提示最优输运方法在 THUMOS-14 和 EpicKitchens100 的标准数据集上能够显著提高少样本 TAL 方法的定位准确性和鲁棒性，突出了其有效性。

Mar, 2024

仅使用文本监督在视觉 - 语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。

Jan, 2024

视觉语言模型的提示学习

本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法，以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题，并证明其比手工制作的提示更好。

Sep, 2021

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示，在 ImageNet 以及其他 10 个数据集上，与原始 CLIP 相比，UPL 具有更优秀的传输表现，并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。

Apr, 2022

语言感知的视觉与语言基础模型软提示

本文介绍了一种软提示学习的方法，用于 Vision & Language 模型。该方法通过使用第二交叉熵损失来最小化学习的软提示与手工工程提示之间的距离，进而提高模型性能，并能够训练虚拟类。在 11 个数据集上进行的广泛评估表明，该方法显著优于所有先前的软提示工作，并在大多数测试数据集上匹配和超越手工制作提示和 CLIP 的新类准确性。

Oct, 2022

面向视觉语言模型的 Patch-Token 对齐的贝叶斯提示学习

这篇文章介绍了一种基于贝叶斯概率理论的视觉 - 语言预训练模型关键词学习方法，该方法通过优化可视化知识和充分利用图像与相应提示的语义联系，在充分表达不同特性的同时保证泛化性能，该方法具有良好的转移性能和泛化性能，结果表明该方法比一般的提示工程技术更加优秀。

Mar, 2023