Instruction-ViT: ViT 中用于指令学习的多模态提示
通过对多模式图像使用提示来提高图像的语义理解能力,将视觉与语言处理相结合,以生成更准确的预测和识别图像,并通过提供更强大的图像表示来改进单模态模型,这是一个有前途的研究领域。
May, 2023
通过对多模态提示的直接分析,我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能,从而提出了偏差调优的方法,并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。
Dec, 2023
本文提出了一种基于视觉提示学习的多模态跟踪方法,通过学习模态相关的提示来适应预训练好的基础模型,在 RGB + 深度、RGB + 热等多个跟踪任务中表现优秀,实现了参数效率和最先进性的平衡。
Mar, 2023
该研究论文提出了一种使用伪视觉提示的模块来改进多标签图像分类的性能,通过将伪视觉提示与文本提示结合,增强它们的视觉表示能力,并在多个数据集上展示了超过现有方法的性能提升。
May, 2024
本文系统综述了视觉指令调整方法,包括计算机视觉任务范式、视觉指令调整的发展、常用的网络架构、评估设置和任务、常用的数据集、已有的视觉指令调整方法的分类和对比、挑战和未来研究方向。
Dec, 2023
该研究介绍了一种新颖的多模态模型,可以解码任意视觉提示,通过在 RGB 图像上直接叠加视觉标记的方式,实现了对特定区域的理解,在区域理解任务上取得了最先进的性能,并提出了 ViP-Bench,一个综合评估模型在理解多个维度上的视觉提示能力的基准,为未来的研究提供了可能。
Dec, 2023
本论文提出了基于 prompt learning 的全新方法 DoPrompt,利用 domain prompts 嵌入源域的知识进行目标域的预测,针对视觉转换器 (ViT) 在领域泛化方面存在的问题,经过大量实验证明本文方法在四个基准数据集上获得了 1.4% 的精度提高,是基于 ViT 骨干结构的状态 - of-the-art 算法的 3.5 倍。
Aug, 2022
本文通过引入合成文本图像作为类别相关的视觉提示,探索了视觉 - 语言模型中视觉提示的作用,并提出了一种 LoGoPrompt 方法,该方法在少样本学习、从基础到新领域的泛化以及领域泛化方面表现出一致优于现有方法的实验结果。
Sep, 2023
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
通过引入一个有效的框架,从多任务的专家轨迹中学习使用多模式提示进行机器人操作,我们在 VIMA-BENCH 上评估了方法的功效,并建立了一个新的最先进水平(成功率提高了 10%)。此外,我们还展示了我们的模型具有显著的情境学习能力。
Oct, 2023