Jun, 2024
从最少到最多:通过数据合成构建即插即用的视觉推理器
From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis
Chuanqi Cheng, Jian Guan, Wei Wu, Rui Yan
TL;DR我们探索了视觉 - 语言模型中的多步推理问题,并提出了一种新的数据合成方法,通过使用先生成较简单的子任务,并依赖开源模型来完成这些子任务,从而构建了 50000 个视觉推理示例,并通过监督微调开发了一种视觉推理器,可以显著改善四个视觉问答基准上的四个视觉 - 语言模型的推理能力。