重思基于外部知识的多模态大语言模型的视觉提示
多模态大型语言模型(MLLMs)借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法,我们的模型在多个多模态基准测试中展示了过人的优越性能。
Nov, 2023
该研究介绍了一种新颖的多模态模型,可以解码任意视觉提示,通过在RGB图像上直接叠加视觉标记的方式,实现了对特定区域的理解,在区域理解任务上取得了最先进的性能,并提出了ViP-Bench,一个综合评估模型在理解多个维度上的视觉提示能力的基准,为未来的研究提供了可能。
Dec, 2023
这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了MLLMs的视觉感知能力。
Jan, 2024
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的MLLMs奠定了基础。
Feb, 2024
我们介绍了Draw-and-Understand项目,其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了SPHINX-V,一种新的端到端训练的多模域大型语言模型,用于连接视觉编码器、视觉提示编码器和语言理解模型,以实现各种视觉提示和语言理解。同时,我们还提出了MDVP-Data和MDVP-Bench,用于促进多模域大型语言模型中的视觉提示研究,并提供了多领域数据集和具有挑战性的基准测试。我们的实验结果表明,SPHINX-V通过视觉提示展现出了卓越的多模交互能力,并在详细的像素级描述和问答能力方面取得了显著的改进。
Mar, 2024
通过Transferable Visual Prompting (TVP)这一新方法,在只对一个模型进行训练的情况下,有效改善多样化的Multimodal Large Language Models(MLLMs)的性能,以提高其在下游任务中的应用能力。
Apr, 2024
我们介绍了SEED-Bench-2-Plus,这是一个专门设计用于评估MLLMs的文本丰富视觉理解的基准,通过涵盖现实世界中的三个广泛类别(图表、地图和网络),它们有效地模拟了复杂多样的文本丰富环境,并强调了当前MLLMs在文本丰富视觉理解方面的限制。
Apr, 2024
本研究解决了多模态大型语言模型在理解任意参考视觉提示时的效率问题,通过提出EAGLE模型,能够有效减少训练工作。该方法将参考视觉提示作为空间概念嵌入至模型中,从而提升了模型的语义理解能力,并结合几何无关学习的理念,验证了其在多样化参考提示场景中的卓越表现。
Sep, 2024
本研究针对现有多模态大型语言模型(MLLM)在处理任意指称视觉提示时的有效性不足和架构冗余问题,提出了EAGLE方法,显著减少了训练成本。EAGLE通过保持指称视觉提示的原始格式,并引入空间概念嵌入,从而提升了模型对特定空间区域的语义理解,展示了在多样化实际场景中的高效表现。
Sep, 2024