基于多模态大语言模型的联合视觉与文本提示改善目标中心感知
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
Oct, 2023
Gemini Pro is explored as a challenger to GPT-4V in multi-modal learning, showcasing comparable visual reasoning capabilities but with different answering styles and preferences, while Sphinx lags behind in domain generalizability; Gemini has the potential to be a strong contender according to quantitative evaluation on the MME benchmark.
Dec, 2023
本研究探讨了多模态大型语言模型的性能,通过利用视觉适配器将视觉表示与语言模型相结合,在多个视觉语言任务中取得了最先进的表现。研究还提出了一种通用组件,名为多示例视觉提示生成器(MIVPG),通过利用图像或样本相同的补丁之间的实例相关性,将丰富的视觉表示合并到语言模型中。对来自不同场景的三个公共视觉 - 语言数据集进行定量评估,结果表明所提出的 MIVPG 可以改善主要的视觉 - 语言任务中的 Q-former 模型。
Jun, 2024
研究了用于解决关键安全挑战的提示引擎 Gemini-pro 多模态模型和精调 ViT 模型的适用性和效果,发现 Gemini-pro 在准确性和可靠性方面存在明显差异,而精调的 ViT 模型在两个任务上表现出色,达到近乎完美的性能。
Mar, 2024
我们评估了 GPT-4V 和 Gemini 这两种最先进的大型多模态模型,并利用 VQAonline 数据集进行了综合评估。通过生成关于约 2000 个视觉问题的七种元数据,我们分析了 GPT-4V 和 Gemini 的零样本性能,并确定了这两个模型的最具挑战性的问题。
Dec, 2023
通过从三个角度对 GPT-4V 进行深入评估,即常识知识、细粒度世界知识和具有决策理由的综合知识,我们发现 GPT-4V 在这三项任务上均取得了最好的性能,并且在使用复合图像进行少样本学习时具有增强的推理和解释能力,但在处理世界知识时可能导致严重的错觉,未来仍需要在这个研究方向上进行改进。
Nov, 2023
通过对大型多模态模型(LMMs)的全面评估和基于视觉引导提示的不同策略的现有研究,本研究找到了提高 LMMs 性能的潜力和改进空间,并揭示了视觉引导提示对 LMMs 准确性的重要影响。
Dec, 2023
通过 Transferable Visual Prompting (TVP) 这一新方法,在只对一个模型进行训练的情况下,有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能,以提高其在下游任务中的应用能力。
Apr, 2024
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023