Apr, 2024

描述 - 理由:通过视觉理解训练改进多模态数学推理

TL;DR通过视觉理解训练和数学推理学习,我们提出了一种名为 VCAR 的两步训练方法,以改善多模态大型语言模型在复杂数学推理中的表现。实验证明,VCAR 在高视觉要求的问题上明显优于仅依赖推理监督的基线方法。