Nov, 2023

通过并行的文本世界训练的具有多模态的体验智能体

TL;DR我们通过在文本世界的任务中,将大型语言模型(LLMs)的反思结果(通过分析错误改进的行为)融入到视觉世界的相同任务中来训练一个居住在视觉世界的视觉语言模型(VLM)代理,从而使得这个多模态的具身代理(EMMA)能够快速适应视觉世界的动态,并在 ALFWorld 基准测试中表现出优越的性能。