Sep, 2024

多模态大型语言模型的视觉问题分解

TL;DR本研究聚焦于多模态大型语言模型(MLLMs)在复杂问题回答中的问题分解能力。通过提出系统的评估框架和特定微调数据集DecoVQA+,我们发现现有的MLLMs在生成高质量子问题方面存在显著不足,并通过有效的微调流程显著提升了模型的分解能力和准确性。