Mar, 2025
GTR:指导性思维强化防止基于强化学习的视觉语言模型代理训练中的思维崩溃
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based
VLM Agent Training
TL;DR本研究针对基于强化学习的视觉语言模型代理在视觉环境中进行目标导向推理时效果不佳的问题。提出了一种自动纠正机制的GTR框架,通过在每个强化学习步骤中评估和细化代理的推理过程,有效防止了思维崩溃现象,显著提高了模型的任务成功率和泛化能力。实验表明,与最新的模型相比,在各类视觉环境下GTR实现了3-5倍的任务成功率提升。