Jun, 2024

VEGA:学习视觉语言大模型中交错的图像文本理解

TL;DR通过引入新的任务 Interleaved Image-Text Comprehension (IITC) 及其相关的 VEGA 数据集和 Image-Text Association(ITA)子任务,我们在多模态大模型(MLLMs)上建立了一个坚实的基线,实现了 85.8%的图像关联准确率和 0.508 的 Rouge 分数,结果验证了我们的数据集在提高 MLLMs 对复杂图文理解能力方面的有效性。