Jun, 2024

MM-Instruct: 大型多模态模型对齐的生成视觉指令

TL;DR该研究介绍了MM-Instruct,这是一个大规模、多样化和高质量的视觉指导数据集,旨在增强大型多模态模型(LMMs)的指令跟随能力,并通过使用现有的LLMs从大规模图像字幕数据集生成新的视觉指导数据,并介绍了一个基于生成的指导数据来评估现有LMMs的指令跟随能力的基准。