使用合成观测学习未来表示以提高效率的强化学习

May, 2024

使用合成观测学习未来表示以提高效率的强化学习

Learning Future Representation with Synthetic Observations for Sample-efficient Reinforcement Learning

Xin Liu, Yaran Chen, Dongbin Zhao

TL;DR通过丰富辅助训练数据，提出了一种无需训练的方法来合成可能包含未来信息的观察，从而改进了强化学习中的辅助表示学习，并展示了其在连续控制和基于无动作视频演示的视觉预训练中的先进性能。

Abstract

In visual reinforcement learning (RL), upstream representation learning largely determines the effect of downstream policy learning. Employing au

visual reinforcement learning auxiliary tasks representation learning synthetic observations self-supervised rl

发现论文，激发创造

比较强化学习表征学习的辅助任务

生成表示在强化学习中得到了稳步流行，由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较，基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示，辅助任务的表示学习对于维度和复杂度较高的环境是有利的，并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。

Oct, 2023

未来预测能成为部分可观察环境中良好历史表达的有力证据

在部分可观察环境中，学习历史表征是强化学习的核心挑战之一。本文通过未来预测的方式探究了历史表征学习的有效性，并证明了强化学习的性能与未来观察的预测准确性密切相关。同时，该方法可以阻止高方差嘈杂信号对表征学习的影响，显著改善整体端到端方法。通过在需要处理长时间历史的三类基准测试中验证了我们的观点。

Feb, 2024

基于回报的对比表示学习在强化学习中的应用

本研究提出了新的辅助任务，通过回报信号，使得学到的表示区分具有不同回报的状态和动作对，从而可以更好地在 Atari 游戏和 DeepMind 控制套件等复杂任务中进行学习，并在与现有的辅助任务相结合时表现更好。

Feb, 2021

用于强化学习的无监督表示轻量级探测

本文提出了使用线性探测任务评估强化学习中视觉预训练算法效果的方法，通过与实际下游控制表现的相关性进行实验，优化了现有自监督学习配方的方法，突出了前向模型、视觉主干大小和无监督目标的重要性。

Aug, 2022

合成体验回放

通过利用生成模型技术，我们提出了 Synthetic Experience Replay（SynthER），这是一种基于扩散的方法，能够有效地提高在数据有限的情况下训练强化学习代理的样本效率，并为重放学习算法的深度学习实现开启了使用合成数据的大门。

Mar, 2023

自我预测表示法的数据有效强化学习

本文提出了自回归表示 (Self-Predictive Representations, SPR) 方法，使用深度强化学习方法，并结合自监督目标和对视觉输入和与环境的交互结构的预测，提高了代理器的学习效率，并在 Atari 游戏中显著提高了性能。

Jul, 2020

自我预测何时有帮助？理解增强学习中的辅助任务

我们研究了辅助学习任务对强化学习中的表示学习问题的影响，包括观测重建和潜在自预测，并研究它们如何与干扰项和观测函数在 MDP 中交互。

Jun, 2024

利用上下文结构生成有用的辅助任务

通过生成和学习有用的辅助任务，最大化经验重用，从而学习解决给定任务的方法，通过计数推理和离线策略方法同时学习这些辅助任务，从而实现多任务强化学习的新框架。

Mar, 2023

提高基于图像的模型自由强化学习的样本效率

通过引入辅助损失以及消除后效性的影响，提出了一种简单且有效的方法，可以在 MuJoCo 控制任务上匹配最新的无模型和有模型算法，同时在观测噪声下表现出鲁棒性，并且过来了以往使用变分自动编码器所面临的发散问题。

Oct, 2019

SURF：数据增强的半监督奖励学习用于反馈高效偏好强化学习

本文提出 SURF，一种半监督的奖励学习框架，它使用大量的无标签样本和数据增强。实验表明，该方法显著提高了各种运动和机器人操作任务的最先进基于偏好的方法的反馈效率。

Mar, 2022