Nov, 2023
通过并行的文本世界训练的具有多模态的体验智能体
Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld
Yijun Yang, Tianyi Zhou, Kanxue Li, Dapeng Tao, Lusong Li...
TL;DR我们通过在文本世界的任务中,将大型语言模型(LLMs)的反思结果(通过分析错误改进的行为)融入到视觉世界的相同任务中来训练一个居住在视觉世界的视觉语言模型(VLM)代理,从而使得这个多模态的具身代理(EMMA)能够快速适应视觉世界的动态,并在 ALFWorld 基准测试中表现出优越的性能。