Feb, 2024

基于模型的LLM代理系统WorldCoder:通过编写代码和与环境交互建立世界模型

TL;DR基于模型的智能体使用与环境的交互来构建代表其对世界的知识的Python程序。通过扩展基于LLMs的程序合成的工作,尝试解释智能体的交互,同时对其可以实现的奖励持有乐观态度。在网格世界中,我们发现该方法相比深度强化学习更具样本效率,并且相比于ReAct式智能体更具计算效率。