EnvGen：通过LLMs生成和适应环境以训练具身代理

Mar, 2024

EnvGen：通过LLMs生成和适应环境以训练具身代理

EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents

Abhay Zala, Jaemin Cho, Han Lin, Jaehong Yoon, Mohit Bansal

TL;DR我们提出了EnvGen，这是一个新颖的框架，利用大型语言模型（LLMs）的推理能力，自适应地创建训练环境，帮助小型的强化学习（RL）代理学习其薄弱的技能。我们通过在Crafter和Heist环境中的广泛实验表明，使用EnvGen训练的小型RL代理性能优于SOTA方法，包括GPT-4代理，并且学习长远任务的速度显著加快。同时，EnvGen更加高效，只需要少量的LLM调用，而LLM代理需要数千次LLM调用。最后，我们对设计选择进行了详细的消融研究。

Abstract

Recent SOTA approaches for embodied learning via interaction directly employ large language models (LLMs) as agents to determine the next steps in an environment. Due to their world knowledge and reasoning capabi

发现论文，激发创造

LLM-Planner: 借助大型语言模型进行少样本基于实例的具身agent规划

本研究使用大型语言模型(Large Language Models, LLMs)作为规划师，以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了LLM-Planner方法进行few-shot planning，同时提出通过物理接口增强LLMs的简单而有效的方法，实验结果表明该方法在ALFRED数据集上能够取得与使用全数据训练的基线模型相当的性能。

Dec, 2022

利用语言模型进行具身推理的协作

本文探究将强化学习代理人和大规模语言模型相结合，实现在复杂环境中的推理和泛化的能力，通过预训练语言模型作为规划器，简单的合成体智能作为行动器，和与规划器通信的汇报器这三部分，展示这个系统在零-shot泛化的任务中的表现，并且讨论了其失败情况以及组件使用增强学习的培训任务。

Feb, 2023

语言模型遇上世界模型：具身体验增强语言模型

本文提出了一种通过fine-tuning使用世界模型使大型自然语言模型获得基于物理环境的知识和技能，以帮助解决模型在简单的推理和规划中的局限性，实验证明这种方法能够提高基本的LM在18项下游任务上的性能，尤其是1.3B和6B的小LM。

May, 2023

通过强化学习实现算法代理和 LLM 之间的高效交互

本文主要介绍了使用基于强化学习的调解模型，来解决使用大型语言模型进行高级指令的效率和成本问题，并在四种实验环境下验证了该方法的准确性和效率。

Jun, 2023

LLM增强分层代理

利用强化学习解决长期和拓展性任务很具挑战性，特别是在没有先验知识的情况下，为了提高样本效率，本文通过利用LLMs的规划能力结合强化学习的环境学习，构建了一个层次化代理，用于解决长期任务，并在MiniGrid、SkillHack和Crafter等仿真环境以及实际机械臂的块操作任务中验证了该方法的优越性能，且训练完成后不需要依赖LLMs进行部署。

Nov, 2023

真知源于实践：通过强化学习使LLMs与具身环境对齐

通过将大型语言模型（LLMs）作为决策制定代理部署到RL中，我们提出了TWOSOME，这是一个新颖的在线框架，无需准备数据集或环境先验知识，使LLMs能够高效地与具体环境进行交互和对齐。在广泛的实验中，我们评估了TWOSOME的性能，结果表明TWOSOME在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能，并展示了优越的一般化能力和原始能力的保持。

Jan, 2024

通過行動學習增強大型語言模型代理

我们的研究探索了语言代理程序的开放式行为学习，在每一次迭代中，通过修正和更新当前可用的动作，从而提高动作的有效性，实验证明，这种开放式行为学习方法显著改善了代理程序的性能，突出了经验行为学习在更智能的大型语言模型代理程序发展中的重要性。

Feb, 2024

迈向高效的LLM对实体多智能体协作的隶属

通过引入增强优势反馈（ReAd）的多智能体协作模型，我们提出了一种新的用于解决复杂物理世界中大型语言模型（LLMs）推理能力的框架，该框架通过对LLM计划数据进行评论回归来学习顺序优势函数，并将LLM规划器视为最优化器生成最大化优势函数的行动，从而为LLM赋予了能够判断行动是否有助于完成最终任务的远见。

May, 2024

AgentGym：基于大型语言模型的智能体在多样环境中的进化

构建能够处理多样化任务并在不同环境中自我演进的通用智能体是人工智能领域的长期目标。本文提出了AgentGym，一个新的框架，具备多样的环境和任务，用于广泛、实时、统一格式和并行的智能体探索。并且，我们还提出了一种名为AgentEvol的新方法，研究智能体在任务和环境中自我演进的潜力。实验结果表明，演进的智能体能够达到与最先进模型相当的结果。

Jun, 2024

AgentGen：通过环境和任务生成增强大语言模型基础代理的规划能力

本研究针对大语言模型（LLM）代理在规划能力方面存在的限制，通过指令调优增强其与环境交互和执行任务的能力。提出的AgentGen框架能够自动生成多样化的环境和规划任务，从而显著提升了LLM的规划能力，实验证明其表现超过了现有的GPT-3.5和在某些任务中超越了GPT-4。

Aug, 2024