自我预测表示法的数据有效强化学习

Jul, 2020

自我预测表示法的数据有效强化学习

Data-Efficient Reinforcement Learning with Momentum Predictive Representations

Max Schwarzer, Ankesh Anand, Rishab Goel, R Devon Hjelm, Aaron Courville...

TL;DR本文提出了自回归表示(Self-Predictive Representations, SPR)方法，使用深度强化学习方法，并结合自监督目标和对视觉输入和与环境的交互结构的预测，提高了代理器的学习效率，并在Atari游戏中显著提高了性能。

Abstract

While deep reinforcement learning excels at solving tasks where large amounts of data can be collected through virtually unlimited interaction with the environment, learning from limited interaction remains a key challenge. We posit that an agent can learn more efficiently if we augmen

发现论文，激发创造

多任务强化学习的引导潜在预测表示

这篇论文介绍了一种基于多步预测表示未来观察结果的自监督表示学习算法Prediction of Bootstrap Latents（PBL），它专注于捕捉与环境动态相关的结构信息，并在DMLab-30和Atari-57等多任务设置中实现了跨越式的性能提升。

Apr, 2020

虚空中的行为: 无监督主动预训练

通过在非有奖励的环境中最大化抽象表示空间中的非参数熵，APT探索了环境，从而避免了具有挑战性的密度建模，并且在具有高维观察的环境中表现出色。在 Atari 游戏中，APT 在 12 种游戏上取得人类水平的性能，并且相对于经典的全监督 RL 算法具有高竞争性的表现。在 DMControl 套件中，APT 在渐进性能和数据效率方面击败了所有基线，并显着提高了初学者难以从头开始培训的任务性能。

Mar, 2021

为数据高效的强化学习预训练表示

利用未标记数据预先训练编码器，然后在少量任务特定数据上微调，通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层MDP的多个方面，该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能

Jun, 2021

为数据高效强化学习学习具有时间一致性的表示

本研究提出了一种名为KSL的新的表示学习方法，通过自我监督辅助任务，强制执行表示的时间一致性，其中代理程序学习以动作为条件的状态空间表示的经常性预测。KSL学习到的状态编码器生成低维表示，可以使RL任务的优化更具样本效率，并在PlaNet基准测试套件中产生最先进的数据效率和渐近性能结果。

Oct, 2021

用于强化学习的无监督表示轻量级探测

本文提出了使用线性探测任务评估强化学习中视觉预训练算法效果的方法，通过与实际下游控制表现的相关性进行实验，优化了现有自监督学习配方的方法，突出了前向模型、视觉主干大小和无监督目标的重要性。

Aug, 2022

奖励预测聚类

通过聚类算法，构建奖励预测深度网络所需的状态抽象，加速高维可视控制任务的学习并实现通过预先训练的奖励预测表示网络在不重新训练的情况下加速学习的系统性跨分布传递。

Nov, 2022

理解强化学习中的自预测学习

本篇研究探讨了自预测学习的学习动态，通过对优化动态的设计，提出了双向自学习算法，并通过一系列实验验证了该算法的有效性。

Dec, 2022

连接状态与历史表征：理解自预测强化学习

深度强化学习的关键是表示方法，这篇论文揭示了多种表示学习方法和理论框架之间的共同性，特别是基于自预测抽象的思想，并给出了学习自预测表示方法的最简算法和实用指南。

Jan, 2024

从视频中实现强化学习的原则性表示学习

研究使用视频数据进行决策预训练表示学习，讨论两种情景：观察中的独立同分布噪声和存在外部噪声的困难情景，验证了在不同情境中学习表征方法的样本复杂度和性能表现。

Mar, 2024

深度强化学习中的高效探索：一种新颖的贝叶斯演员-评论家算法

本研究针对深度强化学习（DRL）中探索效率不足的问题，提出了一种新颖的贝叶斯演员-评论家算法，旨在提升环境的有效探索能力。通过理论研究和实证评估，证明该方法在标准基准和先进评估套件上的优越性，预计将为强化学习社区提供重要的工具和基础。

Aug, 2024