使用生成环境模型塑造强化学习中的信念状态

Jun, 2019

使用生成环境模型塑造强化学习中的信念状态

Shaping Belief States with Generative Environment Models for RL

Karol Gregor, Danilo Jimenez Rezende, Frederic Besse, Yan Wu, Hamza Merzic...

TL;DR本文提出了一种在复杂环境中高效训练表现出色的生成模型的方法，通过预测算法和一个表现出色的生成模型，可以在视觉丰富和动态的 3D 环境中形成稳定的信念状态，并且在强型自由基线代理程序中显著提高数据效率。

Abstract

When agents interact with a complex environment, they must form and maintain beliefs about the relevant aspects of that environment. We propose a way to efficiently train expressive generative models in complex environments. We show that a →

expressive generative models predictive algorithm belief-states reinforcement learning overshooting

发现论文，激发创造

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

高效探索的隐式生成模型

本文介绍了一种基于模型不确定性估计的机制，通过引入基于贝叶斯不确定性的内在奖励来提高强化学习中的探索效率，并将隐式的生成建模方法用于训练。实验结果表明，与其他探索方法相比，该算法在提高数据效率方面表现出色。

Nov, 2019

具有空间记忆的生成时序模型用于部分可观测环境

本文提出了一种新型的基于模型的强化学习方法，利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的，该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。

Apr, 2018

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

基于生成模型的强化学习与紧凑支持集

使用强化学习作为对基础模型的控制的框架，通过生成小而专注的合成支持集来增强神经网络模型在真实数据分类任务上的性能，而无需额外的标记或数据成本。

Apr, 2024

使用生成回放进行强化学习的连续状态表示学习

本研究针对建立连续学习中的状态表示模型问题展开讨论，为保留过去知识的同时高效压缩感知状态信息，我们提出了使用变分自编码器（Variational Auto-Encoders）作为状态表示，并基于生成样本的生成回放（Generative Replay）技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递，还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习，无需使用过去数据。

Oct, 2018

递归世界模型促进策略演化

使用生成式的递归神经网络以压缩时空特征的方式进行快速的非监督式学习，模拟了一些常见的强化学习环境。提取的环境模型特征被输入到简洁的进化训练策略中，取得了在各种环境中的最先进成果。最后，我们在由内部环境模型产生的环境中完全训练我们的智能体，并将这个策略转移到了实际环境中。

Sep, 2018

通过解耦环境和代理的表示实现高效强化学习

提出了一种利用机器代理的视觉知识学习结构化表示的强化学习算法，并通过辅助损失函数将其融入强化学习目标，在包括 5 种不同机器人的 18 个具有挑战性的可视化仿真环境中，我们的方法比现有的无模型方法表现更好。

Sep, 2023

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

决策和控制的深度生成模型

本论文旨在研究深度模型强化学习方法的实证不足，并提出解决方案，同时探讨现代生成建模工具箱中推理技术（包括波束搜索、分类器导向抽样和图像修复等）在强化学习问题中的有效规划策略。

Jun, 2023