通过世界动态建模增强智能体学习

Jul, 2024

通过世界动态建模增强智能体学习

Enhancing Agent Learning through World Dynamics Modeling

Zhiyuan Sun, Haochen Shi, Marc-Alexandre Côté, Glen Berseth, Xingdi Yuan...

TL;DR本研究解决了现有大型语言模型在理解环境动态方面的知识缺口。我们提出了DiVE框架，能够从少量示范中发现世界动态并验证其正确性，从而发展出适应当前情境的动态。研究表明，借助DiVE的智能体在决策上表现更优，达到了与人类玩家相当的奖励水平。

Abstract

While Large Language Models (LLMs) have been increasingly deployed across tasks in language understanding and interactive Decision-Making, their impressive performance is largely due to the comprehensive and in-d

发现论文，激发创造

具身化智能体是否会梦见像素化的绵羊？：利用语言引导的世界建模进行具身决策

使用大型语言模型来假设抽象世界模型从而提高强化学习代理的样本效率。在Minecraft物品制作中，DECKARD代理通过LLM-guided exploration提出AWM并验证其有效性，从而实现了与现代方法相比一个数量级的提升。

Jan, 2023

语言模型遇上世界模型：具身体验增强语言模型

本文提出了一种通过fine-tuning使用世界模型使大型自然语言模型获得基于物理环境的知识和技能，以帮助解决模型在简单的推理和规划中的局限性，实验证明这种方法能够提高基本的LM在18项下游任务上的性能，尤其是1.3B和6B的小LM。

May, 2023

LLaMA Rider: 刺激大型语言模型探索开放世界

提出了一种利用大语言模型（LLMs）在开放环境中帮助决策和规划，并试图将LLMs的知识与现实世界条件相一致的方法，通过多轮反馈修订机制鼓励LLMs积极选择适当的修订动作，以此促进探索并提高模型的性能，同时结合子任务重新标记来帮助LLMs保持一致性，并训练模型了解任务之间的组合性质，从而通过基于获得的探索经验进行训练，完成更广泛的任务。在Minecraft的评估中，证明了我们的方法LLaMA-Rider提高了LLM在环境探索方面的效率，通过仅使用1.3k个收集的数据进行微调，与使用强化学习的基准线相比，训练成本极低。

Oct, 2023

语言引导的世界模型：一种基于模型的人工智能控制方法

安装概率世界模型到人工智能代理中，为人类与控制这些代理打开了一个高效的交流途径；我们开发了一种名为语言引导的世界模型（LWMs），通过阅读语言描述来捕捉环境动态，提高了代理的通信效率，同时允许人类用简洁的语言反馈在多个任务中同时改变行为。该研究证明了当前最先进的Transformer架构在该基准测试上表现不佳，激励我们设计更强大的架构。通过模拟展示了我们提出的LWMs的实用性，使代理能够在执行前生成和讨论计划，增强了代理的可解释性和安全性，并使其在真实环境中的性能提高了三倍，而无需在该环境中进行任何交互式经验的收集。

Jan, 2024

通過行動學習增強大型語言模型代理

我们的研究探索了语言代理程序的开放式行为学习，在每一次迭代中，通过修正和更新当前可用的动作，从而提高动作的有效性，实验证明，这种开放式行为学习方法显著改善了代理程序的性能，突出了经验行为学习在更智能的大型语言模型代理程序发展中的重要性。

Feb, 2024

大型语言模型能否进行上下文探索？

现代大型语言模型（LLMs）在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有LLMs的本地性能。我们将LLMs部署为简单的多臂赌博机环境中的代理，使用完全基于环境描述和交互历史的LLM提示。通过实验，我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好，但得出的结论是在复杂环境中，可能需要非平凡的算法干预才能使LLMs代理能够做出理想的决策。

Mar, 2024

语言模型进化：迭代学习视角

本文介绍了大型语言模型（LLMs）的迭代交互，以及多代理LLM系统和人类文化进化之间的相似之处，并运用迭代学习（IL）贝叶斯框架解释LLMs的一些行为特征，并通过实验证实了该理论框架的预测，有望更有效地预测和引导LLMs在期望的方向上的进化。

Apr, 2024

大型语言模型的自我演进调研

自进化方法是通往超级智能的大语言模型的训练范式，本文概述了大语言模型中自进化方法的综合调查，包括概念框架、演化目标、现有挑战和未来发展方向。

Apr, 2024

从词语到行动：揭示LLM驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024

AgentGym：基于大型语言模型的智能体在多样环境中的进化

构建能够处理多样化任务并在不同环境中自我演进的通用智能体是人工智能领域的长期目标。本文提出了AgentGym，一个新的框架，具备多样的环境和任务，用于广泛、实时、统一格式和并行的智能体探索。并且，我们还提出了一种名为AgentEvol的新方法，研究智能体在任务和环境中自我演进的潜力。实验结果表明，演进的智能体能够达到与最先进模型相当的结果。

Jun, 2024