May, 2024

通过强化学习将大型视觉语言模型细调为决策代理

TL;DR使用强化学习对视觉语言模型进行微调,提出了一种算法框架来增强其决策能力,验证了连续思维推理的重要性,并展示了在各种任务中超越商业模型的性能。