Instruction-ViT: ViT 中用于指令学习的多模态提示

Apr, 2023

Instruction-ViT: ViT 中用于指令学习的多模态提示

Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT

Zhenxiang Xiao, Yuzhong Chen, Lu Zhang, Junjie Yao, Zihao Wu...

TL;DR本篇论文研究了采用提示（prompt）对图片进行分类的方法，通过引入多模质询与 fine-tuning 相结合的方式，提高了图片分类的性能和领域适应性。

Abstract

prompts have been proven to play a crucial role in large language models, and in recent years, vision models have also been using

prompts language models vision models instruction tuning visual transformer model

发现论文，激发创造

使用提示进行多模态视觉理解，实现图像语义信息的解耦

通过对多模式图像使用提示来提高图像的语义理解能力，将视觉与语言处理相结合，以生成更准确的预测和识别图像，并通过提供更强大的图像表示来改进单模态模型，这是一个有前途的研究领域。

May, 2023

理解预训练的视觉语言模型的多模态提示

通过对多模态提示的直接分析，我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能，从而提出了偏差调优的方法，并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。

Dec, 2023

视觉提示的多模式跟踪

本文提出了一种基于视觉提示学习的多模态跟踪方法，通过学习模态相关的提示来适应预训练好的基础模型，在 RGB + 深度、RGB + 热等多个跟踪任务中表现优秀，实现了参数效率和最先进性的平衡。

Mar, 2023

TAI++：基于共同学习的可迁移提示的多标签图像分类中的文本作为图像

该研究论文提出了一种使用伪视觉提示的模块来改进多标签图像分类的性能，通过将伪视觉提示与文本提示结合，增强它们的视觉表示能力，并在多个数据集上展示了超过现有方法的性能提升。

May, 2024

通向通用多模型的视觉指导调整：一项调查

本文系统综述了视觉指令调整方法，包括计算机视觉任务范式、视觉指令调整的发展、常用的网络架构、评估设置和任务、常用的数据集、已有的视觉指令调整方法的分类和对比、挑战和未来研究方向。

Dec, 2023

构建大型多模态模型理解任意视觉提示

该研究介绍了一种新颖的多模态模型，可以解码任意视觉提示，通过在 RGB 图像上直接叠加视觉标记的方式，实现了对特定区域的理解，在区域理解任务上取得了最先进的性能，并提出了 ViP-Bench，一个综合评估模型在理解多个维度上的视觉提示能力的基准，为未来的研究提供了可能。

Dec, 2023

领域泛化的 Prompt 视觉 Transformer

本论文提出了基于 prompt learning 的全新方法 DoPrompt，利用 domain prompts 嵌入源域的知识进行目标域的预测，针对视觉转换器 (ViT) 在领域泛化方面存在的问题，经过大量实验证明本文方法在四个基准数据集上获得了 1.4% 的精度提高，是基于 ViT 骨干结构的状态 - of-the-art 算法的 3.5 倍。

Aug, 2022

LoGoPrompt：合成文本图像可以成为视觉 - 语言模型的良好视觉提示

本文通过引入合成文本图像作为类别相关的视觉提示，探索了视觉 - 语言模型中视觉提示的作用，并提出了一种 LoGoPrompt 方法，该方法在少样本学习、从基础到新领域的泛化以及领域泛化方面表现出一致优于现有方法的实验结果。

Sep, 2023

视觉语言理解的情境提示学习

本文提出一种叫做上下文提示学习的框架，用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示，通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。

Jul, 2023

通过预训练和多任务微调掌握多模态机器人操作

通过引入一个有效的框架，从多任务的专家轨迹中学习使用多模式提示进行机器人操作，我们在 VIMA-BENCH 上评估了方法的功效，并建立了一个新的最先进水平（成功率提高了 10%）。此外，我们还展示了我们的模型具有显著的情境学习能力。

Oct, 2023