Oct, 2024

MC-Bench:多上下文视觉定位基准

TL;DR本研究解决了多模态大语言模型(MLLMs)在实例级视觉语言问题上的局限性,提出了一种新的任务“多上下文视觉定位”。通过构建包含2K高质量标注样本的MC-Bench数据集,为评估MLLMs的能力提供了基准,研究发现现有MLLMs在多图场景下的表现显著低于人类,推动相关领域的进一步研究。