使用生成回放进行强化学习的连续状态表示学习

Oct, 2018

使用生成回放进行强化学习的连续状态表示学习

Continual State Representation Learning for Reinforcement Learning using Generative Replay

Hugo Caselles-Dupré, Michael Garcia-Ortiz, David Filliat

TL;DR本研究针对建立连续学习中的状态表示模型问题展开讨论，为保留过去知识的同时高效压缩感知状态信息，我们提出了使用变分自编码器（Variational Auto-Encoders）作为状态表示，并基于生成样本的生成回放（Generative Replay）技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递，还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习，无需使用过去数据。

Abstract

We consider the problem of building a state representation model in a continual fashion. As the environment changes, the aim is to efficiently compress the sensory state's information without losing past knowledge. The learned features are then fed to a Reinforcement Learning algorithm

state representation model continual learning variational auto-encoders generative replay environment change detection

发现论文，激发创造

S-TRIGGER: 自触发生成重放的连续状态表示学习

在不断学习的情境下，我们提出了一种名为 S-TRIGGER 的新的方法，通过使用生成的样本来维持过去的知识并使用生成的样本的状态表示，在避免灾难性遗忘的情况下，迅速高效地进行强化学习，同时避免了使用过去数据和有限的系统大小问题。

Feb, 2019

基于扩散双生成回放的连续离线强化学习

我们研究了连续离线强化学习，这是一种实用的范例，用于前向转移和减轻灾难性遗忘，以应对顺序离线任务。我们提出了一种双生成重播框架，通过同时重播生成的伪数据来保留先前的知识。我们将连续学习策略解耦为基于扩散的生成行为模型和多头行动评估模型，使策略能够继承分布表达能力，以包含逐步丰富的多样行为范围。通过训练一个任务条件的扩散模型来模拟过去任务的状态分布，生成的状态与行为生成器对应的回应配对，以高保真度回放样本来表示旧任务。最后，通过将伪样本与新任务的真样本交错，不断更新状态和行为生成器，以逐步多样化的行为建模，并通过行为克隆对多头评论者进行正则化，以减轻遗忘。实验证明，我们的方法在前向转移方面取得了更好的效果并且由于其高保真度的样本重放，与使用以前的真实数据近似的结果。

Apr, 2024

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

Atari 中的无监督状态表示学习

本论文提出了一种学习状态表示的方法，通过最大化观察神经编码器的空间和时间不同特征之间的相互信息来学习这些表示。此外，本文还介绍了一个基于 Atari 2600 游戏的新基准评估方法，用于评估它们能够捕捉地面真实状态变量的能力。我们相信这个新的评估框架会对未来的表示学习研究至关重要。最后，我们将我们的技术与其他最先进的生成和对比表示学习方法进行了比较。

Jun, 2019

为数据高效强化学习学习具有时间一致性的表示

本研究提出了一种名为 KSL 的新的表示学习方法，通过自我监督辅助任务，强制执行表示的时间一致性，其中代理程序学习以动作为条件的状态空间表示的经常性预测。KSL 学习到的状态编码器生成低维表示，可以使 RL 任务的优化更具样本效率，并在 PlaNet 基准测试套件中产生最先进的数据效率和渐近性能结果。

Oct, 2021

采用循环胶囊网络实现状态表示学习

本文提出了一种循环胶囊网络，通过预测智能体轨迹中的未来观测来学习紧凑而相关的状态表示，进而有效地解决复杂的强化学习任务。

Dec, 2018

强化学习中表示的泛化

本研究探讨了强化学习中状态表示的泛化行为及具体的有效维度边界，并通过文献调研及案例分析验证了所提出的有效维度理论。

Mar, 2022

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015