Sep, 2023

测量和改进视觉-语言模型的思维链推理

TL;DR通过LLM-Human-in-the-Loop流程和CURE基准,我们评估了现有的VLMs,并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性,表明需要大量努力使VLMs能够像人类一样系统而一致地进行视觉推理。作为初步步骤,我们提出了一个两阶段训练框架,旨在提高VLMs的推理性能和一致性。第一阶段涉及使用由LLMs自动生成的逐步推理样本对VLMs进行监督微调。在第二阶段,我们进一步通过结合LLMs提供的反馈来增强训练过程,以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。