CODIS：面向多模态大型语言模型的上下文相关视觉理解基准测试

Feb, 2024

CODIS：面向多模态大型语言模型的上下文相关视觉理解基准测试

CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models

Fuwen Luo, Chi Chen, Zihao Wan, Zhaolu Kang, Qidong Yan...

TL;DR多模态大语言模型 (MLLMs) 在结合视觉和语言的各种任务中展现了有前景的结果。本研究引入了一个被命名为 CODIS 的新基准，旨在评估模型利用自由文本中提供的上下文来增强视觉理解能力。我们的研究结果显示 MLLMs 在该基准上始终无法达到人类表现水平，进一步分析证实这些模型在提取和利用上下文信息以改善对图像的理解方面存在困难，强调了提高 MLLMs 以上下文相关方式理解视觉信息的迫切需求。

Abstract

multimodal large language models (mllms) have demonstrated promising results in a variety of tasks that combine vision and language. As these models become more integral to research and applications, conducting c

multimodal large language models codis benchmark contextual information visual comprehension mllms

发现论文，激发创造

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源 MLLMs 在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

多模态大语言模型下的上下文目标检测

本文介绍了一个名为 ContextDET 的多模态模型，该模型解决了现有的 MLLMs 在物体检测方面的局限性，可以对人机交互中的视觉单元进行定位、识别和分配，意义重大。

May, 2023

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架 MM-BigBench，本文综合评估了 20 个语言模型（包括 14 个多模态大型语言模型）在 14 个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

VL-ICL Bench: 基于多模态上下文学习的基准测试中的细节之魔鬼

该研究介绍了一个全面的多模态上下文学习基准测试 VL-ICL Bench，评估了先进的视觉大语言模型在这个基准测试套件上的能力，揭示了它们的各种优势和弱点，并表明即使是最先进的模型，如 GPT-4，也会在这些任务中面临挑战。

Mar, 2024

ConTextual: 大型多模态模型中的上下文敏感的文本丰富视觉推理评估

AI 研究纸提出了 ConTextual，它是一个新颖的基准测试，旨在评估 LMM 在上下文敏感的文本丰富的视觉推理方面的能力，发现最佳表现的 LMM 与人类能力存在 30.8％的性能差距，表明上下文敏感的文本丰富的视觉推理仍有改进空间。

Jan, 2024

SEED-Bench-2-Plus：基于多模态大型语言模型的文本丰富视觉理解基准测试

我们介绍了 SEED-Bench-2-Plus，这是一个专门设计用于评估 MLLMs 的文本丰富视觉理解的基准，通过涵盖现实世界中的三个广泛类别（图表、地图和网络），它们有效地模拟了复杂多样的文本丰富环境，并强调了当前 MLLMs 在文本丰富视觉理解方面的限制。

Apr, 2024

从上下文描述中检索图像

本文介绍了新的多模态挑战 ImageCoDe，探讨当前视觉 - 语言模型集成上下文、包括感知和时间信息的能力。通过从一批候选图像中选择正确的图像作为回应上下文描述，验证了多种现代模型的表现，并发现相对于人类表现差距巨大。文章介绍了新的模型变体及其改进效果，希望 ImageCoDe 能够推动视觉理解领域的进步。

Mar, 2022

浏览和专注：通过 prior-LLM 上下文融合理解多模态内容

通过两阶段的浏览和集中的方法，在 Mulitmodal Large Language Models 中集成多模态上下文信息，改善对多图像输入的理解，显著提高准确性。

Feb, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

多语言大型语言模型是否能够进行上下文中的文本到图像学习？

将大型语言模型从文本到多模态进化为多模态大型语言模型 (MLLMs)，并扩展了上下文学习 (ICL) 到多模态环境。本研究中提出以 T2I-ICL 为任务的新的 benchmark 数据集 CoBSAT，通过与六个最先进的 MLLMs 算法的对比表明了 T2I-ICL 的困难及其挑战，并探索了 fine-tuning 和 Chain-of-Thought prompting 等策略以实现显著改进。

Feb, 2024