Dec, 2023

通过语言 - 策略双向调整构建开放式具身代理

TL;DR通过合作训练预训练语言模型(LLM)和增强学习(RL)模型来构建具备理解任意人类指令能力的开放式学习智能体,该实现分为两个阶段:通过微调 LLM 将人类指令转化为结构化目标,以及通过课程训练基于目标的 RL 策略来执行任意目标;协作训练使 LLM 和 RL 策略相互适应,实现在指令空间上的开放性。在具有复杂且广泛目标空间的对抗战 FPS 游戏 Contra 上进行的实验表明,使用 OpenContra 训练的智能体能够理解任意人类指令,并以高完成率完成目标,这证明 OpenContra 可能是构建开放式具身智能体的第一个实用解决方案。