Atari 游戏中部分可观测无监督表示学习

Mar, 2023

Atari 游戏中部分可观测无监督表示学习

Unsupervised Representation Learning in Partially Observable Atari Games

Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad

TL;DR本文提出了一种用于部分可观测状态的无监督状态表示学习方案，相比受监督学习的 ST-DIM 方法在 Atari 游戏中的表现提高了，平均准确率得分达到了约 66％，平均 F1 得分为约 64％。

Abstract

state representation learning aims to capture latent factors of an environment. contrastive methods have performed better than generative models in previous →

state representation learning contrastive methods unsupervised learning partially observable environments st-dim

发现论文，激发创造

Atari 中的无监督状态表示学习

本论文提出了一种学习状态表示的方法，通过最大化观察神经编码器的空间和时间不同特征之间的相互信息来学习这些表示。此外，本文还介绍了一个基于 Atari 2600 游戏的新基准评估方法，用于评估它们能够捕捉地面真实状态变量的能力。我们相信这个新的评估框架会对未来的表示学习研究至关重要。最后，我们将我们的技术与其他最先进的生成和对比表示学习方法进行了比较。

Jun, 2019

Minecraft 中的无监督技能发现和技能学习

本文介绍了一种使用无监督技术和自监督学习的状态表征方法，可以帮助强化学习智能体快速学习到基本导航技能。在使用像素地图进行评估时，我们发现像素表示和条件政策学习适用于玩具例子，但不适用于逼真和复杂的地图。因此我们还研究了相对位移等替代观测输入。

Jul, 2021

透过部分监督强化学习学习后见可观测部分可解释策略

通过融合监督学习和无监督学习，部分监督强化学习（PSRL）框架能够提供更可解释的策略和丰富的潜在洞察力，从而在奖励和收敛速度等方面保持并大大超越传统方法的性能基准。

Feb, 2024

自我预测表示法的数据有效强化学习

本文提出了自回归表示 (Self-Predictive Representations, SPR) 方法，使用深度强化学习方法，并结合自监督目标和对视觉输入和与环境的交互结构的预测，提高了代理器的学习效率，并在 Atari 游戏中显著提高了性能。

Jul, 2020

使用潜在信息进行视觉观察的对抗性模仿学习

基于视觉观测的模仿学习的研究，在部分可观察环境中，引入了基于状态潜在转换分布的上界来分析学习代理的次优性，并提出了一种名为潜在对抗性观测模仿学的算法，在高维连续机器人任务中表现出与最先进的性能，同时提供显著的计算优势，并可以利用专家视频来提高从像素进行强化学习的效率。

Sep, 2023

自监督适应深度神经网络实现机器人视觉操作

使用深度强化学习隐式地在仿真环境中学习潜在的状态表示，并通过无标签的真实机器人数据将其调整到真实环境中，以实现从像素中执行操作任务。通过序列自监督目标优化对比正向动力学损失，提出了一种更加有效的方法，成功地训练基于视觉的强化学习智能体来堆叠方块。

Oct, 2019

使用不平衡的图谱进行状态表示学习

本文提出了一种新的学习方法，利用不平衡的地图来提高自监督学习的效率，并在 AtariARI 基准测试中展示了其比现有算法具有更好的性能。

May, 2023

从视频中实现强化学习的原则性表示学习

研究使用视频数据进行决策预训练表示学习，讨论两种情景：观察中的独立同分布噪声和存在外部噪声的困难情景，验证了在不同情境中学习表征方法的样本复杂度和性能表现。

Mar, 2024

将对比学习与动态模型集成，用于从图像中进行强化学习

本文提出了一种自监督表征学习方法，它将对比学习与动态模型相结合，以协同地实现三个目标，即通过最大化信息 NCE 界来诱导线性预测嵌入，通过显式学习非线性转换模型进一步提高学习嵌入的马尔可夫性以及最大化下一嵌入的互信息，其基于当前动作和当前状态的两个独立增强的嵌入预测，实验表明，与基于对比学习或重建的现有方法相比，我们的方法在样本效率和泛化性能上都取得了更好的结果。

Mar, 2022

高效对抗模仿学习

本研究提出了一种基于自监督表示学习的对抗性模仿学习方法，用于学习具有抗扭曲性和时间预测性的状态和动作表示，以提高样本效率，并在 MuJoCo 的 100 个专家状态 - 动作对设置中相对于现有方法表现出 39％的改进。

Mar, 2023