思行者：学习规划与行动

Jul, 2023

Thinker: Learning to Plan and Act

Stephen Chung, Ivan Anokhin, David Krueger

TL;DR我们提出了 Thinker 算法，这是一种新颖的方法，使强化学习代理能够与学习的世界模型自主交互并利用它。Thinker 算法通过在环境周围包装一个世界模型，并引入专门用于与世界模型交互的新动作，使代理能够通过向世界模型提议替代方案来进行规划，然后选择一个最终动作在环境中执行。该算法的有效性通过在 Sokoban 游戏和 Atari 2600 基准测试中的实验结果得到了证明，其中 Thinker 算法分别实现了最先进的性能和有竞争力的结果。使用 Thinker 算法训练的代理的可视化结果表明，它们已经学会了有效地利用世界模型进行规划，以选择更好的动作。该算法的普遍性为如何将世界模型用于强化学习以及如何将规划无缝集成到代理的决策过程中打开了一个新的研究方向。

Abstract

We propose the thinker algorithm, a novel approach that enables reinforcement learning agents to autonomously interact with and utilize a learned world model. The thinker algorithm wraps the environment with a

thinker algorithm reinforcement learning world model planning autonomous agents

发现论文，激发创造

离散世界模型掌握 Atari

DreamerV2 是一种基于 world models 且在离线的训练集上通过 reinforcement learning 进行策略 (即行为) 学习的智能体，用于通过对 compact latent space 进行预测，实现从 Atari 游戏或连续动作任务的图像输入中进行行为学习的高效模型，实现了在 55 个任务中的 human-level 的性能，获得了与 IQN 和 Rainbow 类似的结果。

Oct, 2020

利用风格迁移的引导状态表示，提高深度强化学习的泛化性能

提出了 Thinker，一种自助引导方法，通过对经验轨迹进行聚类和应用样式转移生成器来提高强化学习代理的泛化能力。实验结果表明，与基准算法和多种数据增强技术相比，Thinker 在 Procgen 基准环境中具有更好的泛化能力。

Jul, 2022

从零开始学习基于模型的规划

介绍了一种基于想象的规划器，可以学习构建、评估和执行计划，并可通过学习策略等手段进行多方案模拟，联合优化外部收益和计算成本等目标。

Jul, 2017

DayDreamer: 物理机器人学习的世界模型

本文介绍了 Dreamer 算法在物理机器人上应用的实验，证明了该算法能够使得机器人在真实世界中进行快速学习和适应，同时建立了实际环境下世界模型应用于机器人学习的强基线。

Jun, 2022

通过观察和学习世界的运作，发现利用 ' 赌博式 ' 选择进行规划的生活技能

该论文提出了一种利用历史交互观察和学习以合成抽象技能的规划代理的新方法，该方法基于马尔科夫状态空间模型，利用未知前提条件下的行动集合，并将技能公式化为基于当前状态提出行动计划的高层抽象策略，以此实现在嘈杂环境下自动学习稳健的高级技能。

Jul, 2022

通过调整规划模型学习在开放世界中的操作

在开放世界中，我们介绍了一个适应新颖性的规划领域模型的方法，通过检测行动执行的观察值和环境模型的预期值之间的差异来推断新颖性的存在，并通过启发式导向的模型改变搜索来修订模型。我们在标准的强化学习基准 CartPole 问题上进行实证评估，结果表明我们的方法可以快速且可解释地处理一类新颖性。

Mar, 2023

想象中的规划：基于学习生成的抽象搜索空间的高级规划

我们提出了一种名为 PiZero 的新方法，使代理能够在完全与真实环境脱节的自主创建的抽象搜索空间中进行规划。与之前的方法不同，这使得代理能够在任意时间尺度上进行高层规划，并以复合或时间扩展的动作形式进行推理，这在需要执行大量基础微动作来执行相关宏动作的环境中非常有用。此外，我们的方法比可比较的之前方法更通用，因为它处理具有连续动作空间和部分可观察性的设置。我们在多个领域，包括导航任务和 Sokoban，对我们的方法进行了评估。实验结果表明，我们的方法在没有假设访问环境模拟器的情况下，优于可比较的之前方法。

Aug, 2023

思维克隆：通过模仿人类思维学习同时行动

我们引入了一种新颖的模仿学习框架，Thought Cloning，训练人工智能代理程序像人类思考一样思考，结果表明 Thought Cloning 学习速度更快，表现优异，更易于调试和提高 AI 安全性和可解释性。

Jun, 2023

通过自监督世界模型规划探索

Plan2Explore 是一种无须任务特定交互且能够通过自监督探索和快速适应新任务的强化学习机器人，利用计划来探求未来预期的新颖性并在零次或少次学习中快速适应新任务。

May, 2020

模型自由规划的研究

通过模型自由的深度神经网络结构，套用归纳偏差这一概念，成功实现了能够规划的强化学习智能体，并在不同领域有着较高的泛化能力和高效性。

Jan, 2019