Jun, 2024

MMDU:多轮多图像对话理解基准及用于 LVLM 的指令调优数据集

TL;DR生成自然且有意义的回复以与多模态人类输入进行交流是大型视觉语言模型(LVLMs)的基本能力。我们引入 MMDU 作为一个综合基准以及 MMDU-45k 作为一个大规模的指导调整数据集,旨在评估和提高 LVLMs 在多轮和多图像对话中的能力。