构建大型多模态模型理解任意视觉提示
通过对多模式图像使用提示来提高图像的语义理解能力,将视觉与语言处理相结合,以生成更准确的预测和识别图像,并通过提供更强大的图像表示来改进单模态模型,这是一个有前途的研究领域。
May, 2023
本文提出了一种基于视觉提示学习的多模态跟踪方法,通过学习模态相关的提示来适应预训练好的基础模型,在 RGB + 深度、RGB + 热等多个跟踪任务中表现优秀,实现了参数效率和最先进性的平衡。
Mar, 2023
我们介绍了 Draw-and-Understand 项目,其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了 SPHINX-V,一种新的端到端训练的多模域大型语言模型,用于连接视觉编码器、视觉提示编码器和语言理解模型,以实现各种视觉提示和语言理解。同时,我们还提出了 MDVP-Data 和 MDVP-Bench,用于促进多模域大型语言模型中的视觉提示研究,并提供了多领域数据集和具有挑战性的基准测试。我们的实验结果表明,SPHINX-V 通过视觉提示展现出了卓越的多模交互能力,并在详细的像素级描述和问答能力方面取得了显著的改进。
Mar, 2024
本篇论文研究了采用提示(prompt)对图片进行分类的方法,通过引入多模质询与 fine-tuning 相结合的方式,提高了图片分类的性能和领域适应性。
Apr, 2023
本文介绍了一种通用的视觉上下文提示框架,以支持涂鸦、方框和点等各种提示类型,并进一步改进以支持任意数量的上下文。通过在 COCO 和 SA-1B 上进行联合训练,我们的模型在 COCO 上达到 57.7 PQ,在 ADE20K 上达到 23.2 PQ。
Nov, 2023
该文章介绍了一种基于多模式提示的创新图像质量评估方法,通过精心设计的提示,从视觉和语言数据中挖掘增量语义信息,在不同数据集上展现出竞争性能,达到了鲁棒性和准确性的提升。
Apr, 2024
Vision-and-Language Navigation with Multi-modal Prompts (VLN-MP) integrates natural language and images in instructions, showing improved navigation performance through the use of multi-modal and visual prompts.
Jun, 2024
通过对大型多模态模型(LMMs)的全面评估和基于视觉引导提示的不同策略的现有研究,本研究找到了提高 LMMs 性能的潜力和改进空间,并揭示了视觉引导提示对 LMMs 准确性的重要影响。
Dec, 2023
通过对多模态提示的直接分析,我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能,从而提出了偏差调优的方法,并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。
Dec, 2023