VRPTEST:大型多模态模型中视觉引导提示的评估
本论文讨论了思考视觉提示、标签映射和迁移学习等一系列问题,提出了ILM-VP和CLIP-VP等新的提示方法,并在多个数据集上实现了进一步提升精度的效果。
Nov, 2022
本文提出了一个名为IPVR的交互提示视觉推理框架,用于少样本的基于知识的视觉推理,它包含see,think和confirm三个阶段,利用视觉感知模型和大规模语言模型进行推理,可实现对推理过程的全透明跟踪和解释。
Jan, 2023
通过分析最新的模型GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现GPT-4V具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强LMMs以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。
Sep, 2023
该研究介绍了一种新颖的多模态模型,可以解码任意视觉提示,通过在RGB图像上直接叠加视觉标记的方式,实现了对特定区域的理解,在区域理解任务上取得了最先进的性能,并提出了ViP-Bench,一个综合评估模型在理解多个维度上的视觉提示能力的基准,为未来的研究提供了可能。
Dec, 2023
本综述论文通过提供近期进展的结构化概述,对提示工程的不同方法和技术进行分类,详细介绍了提示方法学、应用领域、所使用的模型和数据集,并探讨了每种方法的优点、局限性以及通过分类图和表格总结了数据集、模型和关键点,从而更好地理解这一快速发展领域并为提示工程的未来研究提供洞察、揭示了开放性挑战和机遇。
Feb, 2024
我们介绍了Draw-and-Understand项目,其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了SPHINX-V,一种新的端到端训练的多模域大型语言模型,用于连接视觉编码器、视觉提示编码器和语言理解模型,以实现各种视觉提示和语言理解。同时,我们还提出了MDVP-Data和MDVP-Bench,用于促进多模域大型语言模型中的视觉提示研究,并提供了多领域数据集和具有挑战性的基准测试。我们的实验结果表明,SPHINX-V通过视觉提示展现出了卓越的多模交互能力,并在详细的像素级描述和问答能力方面取得了显著的改进。
Mar, 2024
通过Transferable Visual Prompting (TVP)这一新方法,在只对一个模型进行训练的情况下,有效改善多样化的Multimodal Large Language Models(MLLMs)的性能,以提高其在下游任务中的应用能力。
Apr, 2024
大型语言模型的多模态内容理解和推理能力取得了令人印象深刻的成果,我们提出了一种名为POEM的视觉分析系统,以促进对LLMs的多模态推理性能的有效提示工程。该系统支持用户通过多样化的示例和指导原则,循环迭代地设计和改进提示,以实现模型知识与人类洞察力的更好对齐和增强。通过两个案例研究和专家访谈验证了我们系统的有效性和高效性。
Jun, 2024
本研究解决了多模态大型语言模型在理解任意参考视觉提示时的效率问题,通过提出EAGLE模型,能够有效减少训练工作。该方法将参考视觉提示作为空间概念嵌入至模型中,从而提升了模型的语义理解能力,并结合几何无关学习的理念,验证了其在多样化参考提示场景中的卓越表现。
Sep, 2024
本研究针对现有多模态大型语言模型(MLLM)在处理任意指称视觉提示时的有效性不足和架构冗余问题,提出了EAGLE方法,显著减少了训练成本。EAGLE通过保持指称视觉提示的原始格式,并引入空间概念嵌入,从而提升了模型对特定空间区域的语义理解,展示了在多样化实际场景中的高效表现。
Sep, 2024