用于交互式决策的预训练语言模型
本论文提出了一种新的方法,利用在线模型选择算法在序列决策中高效地整合 LLM 代理,统计上显著优于传统决策算法和普通 LLM 代理,计算上避免了 LLM 梯度更新的高昂代价,并且在整个决策过程中只需要少量 LLM 调用。
Jun, 2024
通过使用大规模语言模型,我们提出了一种新的框架,通过从语言模型教师代理接收指导行为,训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中,该学生代理可以用较少的数据进行训练,并通过环境反馈进一步提升其能力。实验结果表明,我们的方法提高了样本效率,并实现了比基准方法更卓越的性能。
Nov, 2023
提出了一种名为 ELLM(LLM 探索)的方法,它利用来自文本语料库的背景知识来塑造探索,通过利用大规模语言模型预训练,无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向,通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验,证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖,并且在一系列下游任务中通常与或优于性能。
Feb, 2023
使用大型语言模型作为强化学习代理以解决对话式强化学习问题,通过提出的提示技术,演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略,并通过两个具体案例研究展示了该方法的实用性。
Apr, 2024
从理论角度出发,研究大型语言模型在物理世界中解决决策问题的原因,通过层次化强化学习模型,证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习,并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。
May, 2024
通过利用背景世界知识,人类能够快速学习新的行为方式。相比之下,强化学习训练的代理通常需要从零开始学习行为。因此,我们提出了一种新的方法,利用基于视觉语言模型(VLMs)的通用世界知识和可索引知识,这些模型在互联网规模的数据上进行预训练,用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略:通过提示提供任务背景和辅助信息,这些嵌入基于视觉观察进行了接地,并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现,与从通用的非可提示图像嵌入训练的等效策略相比,我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现,我们的方法优于遵循指令的方法,并与特定领域的嵌入方法效果相当。
Feb, 2024
通过大型语言模型 (LLM) 以及强化学习技术,我们开发了一种名为 LLaRP 的方法,使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中,能够忽略任务指令的复杂改写并生成新的最佳行为,在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率,并发布了一个名为 “Language Rearrangement” 的新基准测试数据集,用于研究基于语言、多任务和具体化 AI 问题。
Oct, 2023
通过在主动学习循环中使用预训练的大型语言模型的表示,然后在获得所需标记数据后,对这些数据进行微调,从而以较低的计算成本实现与将完全微调的模型相似的性能。
Feb, 2024
本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化,从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能,却不调整 LMM 参数,结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。
May, 2023