游戏中学习 —— 从零开始解决稀疏奖励任务

Feb, 2018

游戏中学习 —— 从零开始解决稀疏奖励任务

Learning by Playing - Solving Sparse Reward Tasks from Scratch

Martin Riedmiller, Roland Hafner, Thomas Lampe, Michael Neunert, Jonas Degrave...

TL;DR本文介绍了计划辅助控制 (SAC-X)，一种新的强化学习学习范例，它可以在多重稀疏奖励信号存在的情况下从零开始学习复杂的行为，并在具有挑战性的机器人控制环境中得到了实验证明。

Abstract

We propose scheduled auxiliary control (SAC-X), a new learning paradigm in the context of reinforcement learning (RL). SAC-X enables learning of complex behaviors - from scratch - in the presence of multiple

scheduled auxiliary control reinforcement learning off-policy robotic manipulation sparse reward signals

发现论文，激发创造

强化学习中的稀疏奖励问题处理

本研究探索和对比了现有的强化学习方法，以避免仅提供稀少回报的环境的难度，并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案，提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。

Oct, 2019

同时学习视觉和基于特征的控制策略，应用于现实世界的杯中球游戏

通过多任务强化学习方法，本文在真实机器人上实现了视觉导向控制策略的快速训练技术，并在模拟和真实世界的 Ball-in-a-Cup 游戏中进行了测试。

Feb, 2019

离线学习目标条件策略：自监督奖励塑形

在机器人领域，通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态，并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法，并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。

Jan, 2023

利用上下文结构生成有用的辅助任务

通过生成和学习有用的辅助任务，最大化经验重用，从而学习解决给定任务的方法，通过计数推理和离线策略方法同时学习这些辅助任务，从而实现多任务强化学习的新框架。

Mar, 2023

使用无监督辅助任务的强化学习

该论文介绍了一种深度强化学习代理，它不仅能够直接最大化累积奖励，在共同的表现下还能同时最大化许多其他伪奖励函数，该代理基于不受外部奖励影响的无监督学习得到共同的表现，并对外部奖励进行关注，可以快速适应实际任务，在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。

Nov, 2016

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

通过任务特定的动作修正实现高效多任务强化学习

多任务强化学习中，通过引入任务特定的动作修正方法可以提高机器人的泛化能力，解决任务之间的冲突和负面干扰问题。该方法通过将策略学习分解为共享策略和动作修正策略，并引入稀疏奖励和拉格朗日方法，有效解决多目标多任务强化学习问题，实验结果显示其在样本效率和行为执行有效性上明显优于现有的方法。

Apr, 2024

层次强化学习中的特征控制作为内在动机

本文介绍了一种通用的子目标类别，应用于端到端层次强化学习系统中，可用于处理含有稀疏奖励的 Montezuma 的复仇等 Atari 游戏。该方法引入了一组时间扩展行动，或选项，以及对应的子目标。

May, 2017

示例中的价值惩罚辅助控制用于无奖励或演示的学习

通过添加计划的辅助控制和辅助任务的示例，本研究在基于示例的控制任务中显著提高了探索能力，并解决了价值估计超出理论限制的问题，从而大大提高了学习效率。

Jul, 2024

无任务离线强化学习的潜在计划

本研究提出了一种层次化的方法，将模仿学习和离线强化学习的优点相结合，学习从高维相机观察中获得与任务无关的长时程策略，并通过技能链接来合并潜在的行为先验，以达到以前未见的技能组合，从而更好地控制机器人的实验结果。

Sep, 2022