选择比努力更重要：大型语言模型促进高效的多智能体探索

Oct, 2024

选择比努力更重要：大型语言模型促进高效的多智能体探索

Choices are More Important than Efforts: LLM Enables Efficient Multi-Agent Exploration

Yun Qu, Boyuan Wang, Yuhang Jiang, Jianzhun Shao, Yixiu Mao...

TL;DR本研究针对强化学习中存在的高维状态—动作空间中的多智能体探索效率问题，提出了一种新颖的系统方法LEMMAE。通过合理引导来自大型语言模型的任务相关知识，该方法显著提高探索的效率，并在挑战性基准上超越了现有的最优方法，某些情况下实现了10倍的加速。

Abstract

With expansive state-action spaces, efficient Multi-Agent Exploration remains a longstanding challenge in Reinforcement Learning. Although pursuing novelty, diversity, or uncertainty attracts increasing attention

发现论文，激发创造

利用大型语言模型指导强化学习的预训练

提出了一种名为ELLM（LLM探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在Crafter游戏环境和Housekeep机器人模拟器中的实验，证明了ELLM训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

选择感知: 用增强学习优化语言模型演员的状态描述

利用大规模语言模型（LLM）作为序贯决策制定任务的参与者，在机器人和游戏等领域应用它们的普适世界知识和规划能力；在此文献中，我们提出了一种称为BLINDER的方法，用于通过学习任务条件化状态描述的价值函数自动选择简明的状态描述，在NetHack（一种具有挑战性的视频游戏）和机器人操纵任务上评估BLINDER，我们的方法提高了任务成功率，减少了输入尺寸和计算成本，且能够在大规模语言模型参与者之间泛化。

Jul, 2023

复杂长时程机器人操作任务的内在语言引导探索

在复杂稀疏环境中，提出使用大型语言模型（LLMs）的内在引导探索（IGE-LLMs）框架，以解决强化学习中的长期操纵任务的问题。结果显示，IGE-LLMs在探索和长期操纵任务中表现出显著较高的性能，同时具有模块化性和对不同内在缩放参数的鲁棒性。

Sep, 2023

大型部分可观察环境中的顺序计划引导LLMs

通过结合状态空间搜索和基于自然语言模型的查询，我们提出了一种混合代理方法neoplanner，以最大化状态值的上界来平衡探索和开发，并通过查询自然语言模型以生成行动计划，进一步提高了大规模状态空间和行动空间的顺序规划的性能。

Dec, 2023

大型语言模型能否进行上下文探索？

现代大型语言模型（LLMs）在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有LLMs的本地性能。我们将LLMs部署为简单的多臂赌博机环境中的代理，使用完全基于环境描述和交互历史的LLM提示。通过实验，我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好，但得出的结论是在复杂环境中，可能需要非平凡的算法干预才能使LLMs代理能够做出理想的决策。

Mar, 2024

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

从词语到行动：揭示LLM驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024

LLM增强型状态表示用于强化学习

利用大型语言模型(LLM)的LESR方法自主生成与任务相关的状态表示代码，提高网络映射的连贯性并促进高效训练，实验证明LESR在Mujoco任务的累积奖励上平均超过基准水平29%，在Gym-Robotics任务的成功率上平均超过基准水平30%。

Jul, 2024

利用大型语言模型先验的高效强化学习

本研究解决了强化学习在多样化环境中无法有效泛化的问题。通过将大型语言模型视作先验动作分布，并通过贝叶斯推断方法将其整合到强化学习框架中，显著提高了样本效率。实验结果表明，使用大型语言模型的先验大幅度减少了所需样本的数量，优化复杂度降低超过90%。

Oct, 2024

语言作为指引：通过高层语言提示指导强化学习代理

本研究针对强化学习中稀疏奖励环境所面临的探索挑战，提出了一种教师-学生强化学习框架，利用大型语言模型作为教师，帮助代理通过细分复杂任务为子目标来学习。实验结果表明，此方法显著加速了学习速度，并在复杂任务中提高了探索效率，训练步骤的收敛速度比目前在稀疏奖励环境中设计的基线快30至200倍。

Oct, 2024