使用无监督辅助任务的强化学习

Nov, 2016

Reinforcement Learning with Unsupervised Auxiliary Tasks

Max Jaderberg, Volodymyr Mnih, Wojciech Marian Czarnecki, Tom Schaul, Joel Z Leibo...

TL;DR该论文介绍了一种深度强化学习代理，它不仅能够直接最大化累积奖励，在共同的表现下还能同时最大化许多其他伪奖励函数，该代理基于不受外部奖励影响的无监督学习得到共同的表现，并对外部奖励进行关注，可以快速适应实际任务，在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。

Abstract

deep reinforcement learning agents have achieved state-of-the-art results by directly maximising cumulative reward. However, environments contain a much wider variety of possible training signals. In this paper, we introduce an agent that also maximises many other →

deep reinforcement learning pseudo-reward functions common representation atari labyrinth

发现论文，激发创造

利用上下文结构生成有用的辅助任务

通过生成和学习有用的辅助任务，最大化经验重用，从而学习解决给定任务的方法，通过计数推理和离线策略方法同时学习这些辅助任务，从而实现多任务强化学习的新框架。

Mar, 2023

无参判别奖励的无监督控制

本文提出了一种基于无人监督学习的算法，用于训练代理达成感知确定目标，通过学习目标条件化策略和目标实现奖励函数，代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。

Nov, 2018

基于回报的对比表示学习在强化学习中的应用

本研究提出了新的辅助任务，通过回报信号，使得学到的表示区分具有不同回报的状态和动作对，从而可以更好地在 Atari 游戏和 DeepMind 控制套件等复杂任务中进行学习，并在与现有的辅助任务相结合时表现更好。

Feb, 2021

比较强化学习表征学习的辅助任务

生成表示在强化学习中得到了稳步流行，由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较，基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示，辅助任务的表示学习对于维度和复杂度较高的环境是有利的，并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。

Oct, 2023

强化学习中的稀疏奖励问题处理

本研究探索和对比了现有的强化学习方法，以避免仅提供稀少回报的环境的难度，并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案，提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。

Oct, 2019

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

自适应惊喜内在动机的无监督强化学习

提出了一个基于多臂赌博机问题的代理模型，该模型根据环境的熵条件动态调整目标，从而鼓励在不同熵环境中出现新的行为和学习技能。

May, 2024

损失即奖励：自监督增强学习

本文探讨了如何通过自我监督预训练和联合优化来增加辅助损失，提高强化学习中的数据效率和策略回报。

Dec, 2016

使用神经网络奖励函数的开放式强化学习

该研究提出了一种使用神经网络编码奖励函数的方法，通过迭代训练，以鼓励更复杂的行为，实现在高维度机器人和像素级环境下的无监督学习，从而学习包括前空翻和单腿奔跑等丰富的技能。

Feb, 2022

无监督离策略强化学习实现真实世界机器人技能

本文提出的无监督技能发现算法可用于进行高效无监督增强学习，通过模型预测控制将学习到的技能组合用于目标导航。

Apr, 2020