Mar, 2024

EnvGen:通过LLMs生成和适应环境以训练具身代理

TL;DR我们提出了EnvGen,这是一个新颖的框架,利用大型语言模型(LLMs)的推理能力,自适应地创建训练环境,帮助小型的强化学习(RL)代理学习其薄弱的技能。我们通过在Crafter和Heist环境中的广泛实验表明,使用EnvGen训练的小型RL代理性能优于SOTA方法,包括GPT-4代理,并且学习长远任务的速度显著加快。同时,EnvGen更加高效,只需要少量的LLM调用,而LLM代理需要数千次LLM调用。最后,我们对设计选择进行了详细的消融研究。