将世界模型视为图：学习用于规划的潜在地标

Nov, 2020

将世界模型视为图：学习用于规划的潜在地标

World Model as a Graph: Learning Latent Landmarks for Planning

Lunjun Zhang, Ge Yang, Bradly C. Stadie

TL;DR该论文提出 L3P 算法，使用稀疏的多步转换学习基于图结构的世界模型并生成 Q - 函数，其在高维连续控制任务上具有优越的性能，是深度强化学习中可扩展规划的重要进展。

Abstract

planning - the ability to analyze the structure of a problem in the large and decompose it into interrelated subproblems - is a hallmark of human intelligence. While deep reinforcement learning (RL) has shown gre

planning deep reinforcement learning world model graph-structured latent landmarks

发现论文，激发创造

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

基于模型的组合状态和动作空间学习与规划的全球方案

本文提出了一种形式化方法，通过学习动态模型和观察状态转移示例来导出世界程序，并将其作为复杂规划任务的模拟器，以进行强化学习。作者强调了最近的应用，并提出了基于世界程序规划的挑战，以评估学习算法的性能。

Dec, 2019

学习基于知识图谱的文本环境世界模型

该论文聚焦于构建基于文本的游戏环境的世界模型，利用知识图谱和自然语言行动生成模型，提升增强学习智能体在该环境下的效率。通过零样本消融实验，表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。

Jun, 2021

基于模型的强化学习通过潜空间配置

该研究使用学习的潜在状态空间模型，结合目测模型强化学习方法，提出了一种优化潜在状态轨迹的 LatCo 方法，来解决长时程、奖励稀疏的任务。通过序列规划，相比于之前使用的射击方法，该方法在历经时间过程中的效果更好。

Jun, 2021

基于梯度的世界模型规划

人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法，利用可微的世界模型，对比了其他基于 MPC 的方法和基于策略的算法，并在大多数任务中，在具有样本效率的设定下，实现了与其他方法相媲美甚至更好的性能。此外，引入了一种将策略网络和基于梯度的 MPC 相结合的混合模型，优于纯粹的基于策略的方法，这为在复杂的现实世界任务中基于梯度的规划与世界模型带来了希望。

Dec, 2023

潜在世界模型对于连续强化学习的惊人有效性

本文研究了基于模型的强化学习方法，特别是对于持续强化学习的世界模型的应用。结论表明，使用世界模型是一种简单且有效的持续强化学习基准。

Nov, 2022

学习使用不确定拓扑地图进行规划

本文采用一种数据驱动的策略和基于图像的规划，应用于 3D 环境中的导航系统，通过机器学习方法实现了图像哈希表上的最短路径规划，比传统符号算法更优秀。

Jul, 2020

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

利用双层可学习大语言模型规划增强长期推荐

利用大型语言模型的规划能力，提出一种可学习的长期推荐规划框架，结合强化学习和层次学习。实验证实该框架在学习长期推荐规划方面具有优势。

Feb, 2024

通过调整规划模型学习在开放世界中的操作

在开放世界中，我们介绍了一个适应新颖性的规划领域模型的方法，通过检测行动执行的观察值和环境模型的预期值之间的差异来推断新颖性的存在，并通过启发式导向的模型改变搜索来修订模型。我们在标准的强化学习基准 CartPole 问题上进行实证评估，结果表明我们的方法可以快速且可解释地处理一类新颖性。

Mar, 2023