Mar, 2025
通过双阶段基于规则的强化学习提升3B模型的推理能力
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through
Two-Stage Rule-Based RL
TL;DR本研究解决了大型多模态模型在推理能力方面面临的挑战,特别是在3B参数架构中的限制造成的推理能力不足和模态对齐问题。提出的LMM-R1框架通过基础推理增强(FRE)和多模态泛化训练(MGT)两个阶段有效提升推理能力,实验结果显示,相较于基线,LMM-R1在多模态和文本基准上分别提升了4.83%和4.5%的平均表现,表明文本基础推理增强能够有效促进多模态的泛化,提供了一种数据高效的训练方式。