Jan, 2025

从简单到困难的视觉推理推广:我们能否缓解视觉语言模型中的模态不平衡?

TL;DR本研究旨在解决视觉语言模型(VLMs)在多步推理任务中表现不足的问题,提出了一种评估VLMs算法视觉推理能力的合成框架。通过分析训练策略对简单和困难任务的影响,研究发现显式的图像到文本转换在促进从简单到困难的任务泛化能力方面具有重要作用。