Jun, 2024

从最少到最多:通过数据合成构建即插即用的视觉推理器

TL;DR我们探索了视觉-语言模型中的多步推理问题,并提出了一种新的数据合成方法,通过使用先生成较简单的子任务,并依赖开源模型来完成这些子任务,从而构建了50000个视觉推理示例,并通过监督微调开发了一种视觉推理器,可以显著改善四个视觉问答基准上的四个视觉-语言模型的推理能力。