Mar, 2024

绘制与理解:利用视觉提示使 MLLMs 能够理解您想要的内容

TL;DR我们介绍了 Draw-and-Understand 项目,其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了 SPHINX-V,一种新的端到端训练的多模域大型语言模型,用于连接视觉编码器、视觉提示编码器和语言理解模型,以实现各种视觉提示和语言理解。同时,我们还提出了 MDVP-Data 和 MDVP-Bench,用于促进多模域大型语言模型中的视觉提示研究,并提供了多领域数据集和具有挑战性的基准测试。我们的实验结果表明,SPHINX-V 通过视觉提示展现出了卓越的多模交互能力,并在详细的像素级描述和问答能力方面取得了显著的改进。