Atari 中的无监督状态表示学习

Jun, 2019

Unsupervised State Representation Learning in Atari

Ankesh Anand, Evan Racah, Sherjil Ozair, Yoshua Bengio, Marc-Alexandre Côté...

TL;DR本论文提出了一种学习状态表示的方法，通过最大化观察神经编码器的空间和时间不同特征之间的相互信息来学习这些表示。此外，本文还介绍了一个基于 Atari 2600 游戏的新基准评估方法，用于评估它们能够捕捉地面真实状态变量的能力。我们相信这个新的评估框架会对未来的表示学习研究至关重要。最后，我们将我们的技术与其他最先进的生成和对比表示学习方法进行了比较。

Abstract

state representation learning, or the ability to capture latent generative factors of an environment, is crucial for building intelligent agents that can perform a wide variety of tasks. Learning such representations without supervision from rewards is a challenging open problem. We in

state representation learning latent generative factors mutual information atari 2600 games representation learning models

发现论文，激发创造

Atari 游戏中部分可观测无监督表示学习

本文提出了一种用于部分可观测状态的无监督状态表示学习方案，相比受监督学习的 ST-DIM 方法在 Atari 游戏中的表现提高了，平均准确率得分达到了约 66％，平均 F1 得分为约 64％。

Mar, 2023

使用生成回放进行强化学习的连续状态表示学习

本研究针对建立连续学习中的状态表示模型问题展开讨论，为保留过去知识的同时高效压缩感知状态信息，我们提出了使用变分自编码器（Variational Auto-Encoders）作为状态表示，并基于生成样本的生成回放（Generative Replay）技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递，还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习，无需使用过去数据。

Oct, 2018

自我预测表示法的数据有效强化学习

本文提出了自回归表示 (Self-Predictive Representations, SPR) 方法，使用深度强化学习方法，并结合自监督目标和对视觉输入和与环境的交互结构的预测，提高了代理器的学习效率，并在 Atari 游戏中显著提高了性能。

Jul, 2020

为数据高效的强化学习预训练表示

利用未标记数据预先训练编码器，然后在少量任务特定数据上微调，通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层 MDP 的多个方面，该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能

Jun, 2021

使用无监督辅助任务的强化学习

该论文介绍了一种深度强化学习代理，它不仅能够直接最大化累积奖励，在共同的表现下还能同时最大化许多其他伪奖励函数，该代理基于不受外部奖励影响的无监督学习得到共同的表现，并对外部奖励进行关注，可以快速适应实际任务，在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。

Nov, 2016

Minecraft 中的无监督技能发现和技能学习

本文介绍了一种使用无监督技术和自监督学习的状态表征方法，可以帮助强化学习智能体快速学习到基本导航技能。在使用像素地图进行评估时，我们发现像素表示和条件政策学习适用于玩具例子，但不适用于逼真和复杂的地图。因此我们还研究了相对位移等替代观测输入。

Jul, 2021

Atari 游戏中联合视频帧和奖励预测的深度学习方法

本文介绍一种在高维视觉状态空间下学习动态系统和奖励函数的方法，将视觉帧预测的深度神经网络扩展为同时预测奖励，利用联合优化问题最小化奖励和视觉帧的重构误差，并在五个 Atari 游戏上经过实证评估，取得了高达 200 帧的准确累计奖励预测结果。

Nov, 2016

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

强化学习中无监督表示学习特征分离的重要性

我们提出了一种新的 URL 框架，通过在潜空间中解相关特征，在因果预测未来状态的同时增加潜空间的维数，从而有效地学习预测表示，解决了表示坍塌的问题，大大提高了基准测试的样本效率。

Jun, 2023

目标驱动机器人中从策略学习中分离特征提取：评估状态表示学习的优劣

该论文提出了一种基于状态表示学习的方法用于实现机器人视觉控制中的高效强化学习，该方法包含多个状态表示学习方法，能够提高采样效率、提高性能、抗超参数变化，并编码所有相关特征。

Jan, 2019