Mar, 2025

探索强化学习对视频理解的影响:来自SEED-Bench-R1的见解

TL;DR本研究针对多模态大型语言模型(MLLMs)在视频理解任务中的感知与逻辑推理能力不足的问题,提出了SEED-Bench-R1基准,以系统评估其后训练方法。研究结果表明,强化学习(RL)在数据效率和性能上优于监督微调(SFT),尽管RL在推理连贯性上存在不足,其在视觉感知的提升潜力依然显著,为未来模型改进提供了重要方向。