Sep, 2023

测量和改进视觉 - 语言模型的思维链推理

TL;DR通过 LLM-Human-in-the-Loop 流程和 CURE 基准,我们评估了现有的 VLMs,并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性,表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤,我们提出了一个两阶段训练框架,旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段,我们进一步通过结合 LLMs 提供的反馈来增强训练过程,以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。