基于多模态大语言模型的联合视觉与文本提示改善目标中心感知

Apr, 2024

基于多模态大语言模型的联合视觉与文本提示改善目标中心感知

Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models

Songtao Jiang, Yan Zhang, Chenyi Zhou, Yeying Jin, Yang Feng...

TL;DR使用视觉和文本提示的新方法 (VTPrompt) 提高了 Multimodal Large Language Models 在物体感知方面的能力，并在三个基准测试上表现出显著的改进。

Abstract

multimodal large language models (MLLMs) such as GPT-4V and Gemini Pro face challenges in achieving human-level perception in visual question answering (VQA), particularly in →

multimodal large language models visual question answering object-oriented perception visual and text prompting detection model

发现论文，激发创造

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

挑战 GPT-4V？对 Gemini 在视觉专长方面的早期探索

Gemini Pro is explored as a challenger to GPT-4V in multi-modal learning, showcasing comparable visual reasoning capabilities but with different answering styles and preferences, while Sphinx lags behind in domain generalizability; Gemini has the potential to be a strong contender according to quantitative evaluation on the MME benchmark.

Dec, 2023

通过多实例视觉提示生成器增强多模态大语言模型以实现视觉表征丰富化

本研究探讨了多模态大型语言模型的性能，通过利用视觉适配器将视觉表示与语言模型相结合，在多个视觉语言任务中取得了最先进的表现。研究还提出了一种通用组件，名为多示例视觉提示生成器（MIVPG），通过利用图像或样本相同的补丁之间的实例相关性，将丰富的视觉表示合并到语言模型中。对来自不同场景的三个公共视觉 - 语言数据集进行定量评估，结果表明所提出的 MIVPG 可以改善主要的视觉 - 语言任务中的 Q-former 模型。

Jun, 2024

欺骗性提示对多模态语言模型的迷惑程度实证分析

通过 Quantum-Bench，我们比较了多种先进模型在对抗伪信息的能力上的表现，并提出了通过增加伪信息以增强模型韧性的建议。

Feb, 2024

评估基于生成式的大型多模态模型与基于微调的视觉转换器在基于图像的安全应用中的功效

研究了用于解决关键安全挑战的提示引擎 Gemini-pro 多模态模型和精调 ViT 模型的适用性和效果，发现 Gemini-pro 在准确性和可靠性方面存在明显差异，而精调的 ViT 模型在两个任务上表现出色，达到近乎完美的性能。

Mar, 2024

在线视觉问答中 GPT-4V 和 Gemini 的评估

我们评估了 GPT-4V 和 Gemini 这两种最先进的大型多模态模型，并利用 VQAonline 数据集进行了综合评估。通过生成关于约 2000 个视觉问题的七种元数据，我们分析了 GPT-4V 和 Gemini 的零样本性能，并确定了这两个模型的最具挑战性的问题。

Dec, 2023

对基于知识的视觉问答模型 GPT-4V 的全面评估

通过从三个角度对 GPT-4V 进行深入评估，即常识知识、细粒度世界知识和具有决策理由的综合知识，我们发现 GPT-4V 在这三项任务上均取得了最好的性能，并且在使用复合图像进行少样本学习时具有增强的推理和解释能力，但在处理世界知识时可能导致严重的错觉，未来仍需要在这个研究方向上进行改进。

Nov, 2023

VRPTEST：大型多模态模型中视觉引导提示的评估

通过对大型多模态模型（LMMs）的全面评估和基于视觉引导提示的不同策略的现有研究，本研究找到了提高 LMMs 性能的潜力和改进空间，并揭示了视觉引导提示对 LMMs 准确性的重要影响。

Dec, 2023

探索视觉提示在多模态大型语言模型中的可转移性

通过 Transferable Visual Prompting (TVP) 这一新方法，在只对一个模型进行训练的情况下，有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能，以提高其在下游任务中的应用能力。

Apr, 2024

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023