Jun, 2024
从最少到最多:通过数据合成构建即插即用的视觉推理器
From the Least to the Most: Building a Plug-and-Play Visual Reasoner via
Data Synthesis
TL;DR我们探索了视觉-语言模型中的多步推理问题,并提出了一种新的数据合成方法,通过使用先生成较简单的子任务,并依赖开源模型来完成这些子任务,从而构建了50000个视觉推理示例,并通过监督微调开发了一种视觉推理器,可以显著改善四个视觉问答基准上的四个视觉-语言模型的推理能力。