Sep, 2024

MMEvol:通过Evol-Instruct赋能多模态大型语言模型

TL;DR本研究解决了多模态大型语言模型(MLLMs)在数据质量上的瓶颈问题。我们提出的MMEvol框架通过细致的感知、认知推理和交互进化,迭代提升指令数据的质量,从而生成更复杂和多样化的图像-文本指令数据集。研究表明,相比于初始种子数据训练的基准模型,我们的方法在13个视觉-语言任务上实现了平均3.1个百分点的准确率提升,并在九个任务上达到了最先进的表现。