连续参数环境下深度强化学习课程学习的教师算法

Oct, 2019

连续参数环境下深度强化学习课程学习的教师算法

Teacher algorithms for curriculum learning of Deep RL in continuously parameterized environments

Rémy Portelas, Cédric Colas, Katja Hofmann, Pierre-Yves Oudeyer

TL;DR本研究探讨如何使用教师算法使得未知的深度强化学习算法的学习在不同的环境中变得能够拓展。研究表明，教师算法可以通过学习生成一系列逐步采样的参数来控制生成的随机过程环境，使其最终有效地提高学生的知识水平。通过建立连续赌博问题的代理模型，我们提出了一种新算法来建模绝对学习进展。我们还针对 DRL 算法进行了全面的研究，通过对 BipedalWalker 环境的参数化变体，我们研究了算法快速个性化建立不同学生的学习计划的效率，以及对可学环境 / 不可学环境的比率的鲁棒性，以及对于高维参数空间的可扩展性

Abstract

We consider the problem of how a teacher algorithm can enable an unknown Deep Reinforcement Learning (DRL) student to become good at a skill over a wide range of diverse environments. To do so, we study how a teacher al

teacher algorithm deep reinforcement learning learning curriculum stochastic procedural generation absolute learning progress

发现论文，激发创造

强化学习中的师生课程学习

提出了一种基于师生课程学习的强化学习方法，该方法独立于人类领域知识和手动课程设置，可以改善学生的样本效率和通用性。

Oct, 2022

基于贝叶斯优化的课程学习提升自主驾驶深度强化学习方法的环境鲁棒性

通过贝叶斯优化进行概率推理的课程学习方法在自主赛车避障领域表现优于基准的深度强化学习代理与手工设计的课程。

Dec, 2023

尝试时重来，而不是尝试更久：自适应课程学习的先验学习

该研究论文提出了一种两阶段自适应教学方法，以提高深度强化学习（DRL）智能体的性能，主要包括使用过程生成任务、自动课程学习（ACL）和探索课程等关键词。

Apr, 2020

通过难度条件生成器可转移课程

该论文介绍了一种名为参数化环境响应模型（PERM）的方法，该方法可以根据学生的当前能力将环境的难度匹配到一个合适的 “接受挑战的区域”，以提高训练效率和知识传输，并且 PERM 可以在离线上进行培训，适用于学生之间的传输。

Jun, 2023

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023

深度强化学习下的行走学习

本文提出了一种基于最大熵强化学习的样本有效的深度强化学习算法，用于学习独立于机器人动力学模型的实际机器人行走姿势，仅需要少量试验即可。实验结果表明，我们的方法可以帮助机器人在约两个小时内直接从零开始建立稳定步态，而不需要任何模型或仿真。同时，我们展现了本算法在单个较佳超参数上实现了最先进的性能，与环境中的适度变化相容。

Dec, 2018

无任务特定知识的自主强化学习自我监督课程生成

提出了一种新颖的自主强化学习算法，能够根据智能体的学习进展生成自适应课程，使智能体能够高效地解决稀疏奖励迷宫导航任务，同时减少了手动复位。

Nov, 2023

通过对抗环境设计发现通用的强化学习算法

通过分析元训练分布的特征对学习策略的泛化性能的影响，并结合无监督环境设计的思想，提出一种通过环境设计获得的通用强化学习优化器的新方法（GROOVE），该方法在一系列实验中展现了优于现有算法的泛化能力，并将算法遗憾（AR）作为环境设计中的关键组成部分加以评估。我们认为这一方法是朝着实现真正通用能解决各种现实环境的强化学习算法的一步。

Oct, 2023

基于精度的课程学习在深度强化学习中的应用

本文研究了一种基于精度要求自适应选择的自动课程学习的新形式。使用基于 Deep Deterministic Policy Gradient 算法的强化学习代理和解决 Reacher 环境，我们首先展示了随机采样不同精度要求训练的代理比一直很精确的代理学习更加高效；然后，我们展示了基于局部能力进度的自适应精度要求选择可以自动生成一个难度不断递增的课程，从而提高学习效率。

Jun, 2018

强化学习中的课程表政策学习

本文研究课程学习在强化学习中的应用，并针对多个传递学习算法扩展已有的课程设计方法，通过学习 MDP（Markov Decision Process) 过程中的课程策略，得出可以用于训练代理人的课程，进而实现更快或同等方法的学习效率。

Dec, 2018