尝试时重来，而不是尝试更久：自适应课程学习的先验学习

ICLRApr, 2020

尝试时重来，而不是尝试更久：自适应课程学习的先验学习

Trying AGAIN instead of Trying Longer: Prior Learning for Automatic Curriculum Learning

Rémy Portelas, Katja Hofmann, Pierre-Yves Oudeyer

TL;DR该研究论文提出了一种两阶段自适应教学方法，以提高深度强化学习（DRL）智能体的性能，主要包括使用过程生成任务、自动课程学习（ACL）和探索课程等关键词。

Abstract

A major challenge in the deep rl (DRL) community is to train agents able to generalize over unseen situations, which is often approached by training them on a diversity of tasks (or environments). A powerful method to foster diversity is to procedurally generate tasks by sampling their

deep rl procedural generation automated curriculum learning exploration curriculum classroom teaching

发现论文，激发创造

深度强化学习的自动课程学习：简要调查

本文介绍了自动课程学习（ACL）的相关文献，并对当前状态进行了概述，旨在促进现有概念的交叉和新思想的出现。ACL 是深度强化学习成功的中坚力量，可用于改善样本效率和渐进性能，组织探索，鼓励泛化或解决稀疏奖励问题，等等。

Mar, 2020

无任务特定知识的自主强化学习自我监督课程生成

提出了一种新颖的自主强化学习算法，能够根据智能体的学习进展生成自适应课程，使智能体能够高效地解决稀疏奖励迷宫导航任务，同时减少了手动复位。

Nov, 2023

强化学习中的师生课程学习

提出了一种基于师生课程学习的强化学习方法，该方法独立于人类领域知识和手动课程设置，可以改善学生的样本效率和通用性。

Oct, 2022

面向多智体强化学习的熟练人口课程

该论文介绍了一种名为 SPC 的新型自动课程学习框架，该框架将课程学习应用于多智能体协调中，通过赋予学生团体不变的通信和分层技能，在不同数量的代理任务中学习合作和行为技能，并在学生策略的条件下将老师建模为一个情境式赌博机，提高了 MARL 环境下的性能、可伸缩性和样本效率。

Feb, 2023

通过价值分歧进行自动课程学习

通过提出自动课程设计和目标建议模块，来提高强化学习中的多任务目标采样效率，并在机器人和导航任务中展示了比现有方法更好的性能。

Jun, 2020

深度强化学习中具有任务关联的近端课程

基于近发展区概念，我们提出了一种名为 ProCuRL-Target 的新型课程计划，它可以在复杂任务的目标分布上平衡选择任务的需要，通过利用任务之间的相关性推动代理的学习，从而加速深度强化学习代理的训练过程。

May, 2024

连续参数环境下深度强化学习课程学习的教师算法

本研究探讨如何使用教师算法使得未知的深度强化学习算法的学习在不同的环境中变得能够拓展。研究表明，教师算法可以通过学习生成一系列逐步采样的参数来控制生成的随机过程环境，使其最终有效地提高学生的知识水平。通过建立连续赌博问题的代理模型，我们提出了一种新算法来建模绝对学习进展。我们还针对 DRL 算法进行了全面的研究，通过对 BipedalWalker 环境的参数化变体，我们研究了算法快速个性化建立不同学生的学习计划的效率，以及对可学环境 / 不可学环境的比率的鲁棒性，以及对于高维参数空间的可扩展性

Oct, 2019

通过难度条件生成器可转移课程

该论文介绍了一种名为参数化环境响应模型（PERM）的方法，该方法可以根据学生的当前能力将环境的难度匹配到一个合适的 “接受挑战的区域”，以提高训练效率和知识传输，并且 PERM 可以在离线上进行培训，适用于学生之间的传输。

Jun, 2023

通过设置器 - 求解器交互自动生成课程

研究探讨了如何在动态的环境下使用自动生成的任务大纲来改善智能体的效果，介绍了使用目标的有效性、可行性和覆盖面的考虑来构建有用的任务大纲的新技术，并在 2D 和 3D 环境中展示了成功应用。

Sep, 2019

加速机器人学习接触丰富的操纵：一个课程学习研究

本研究结合课程学习和域随机化方法，探究如何快速应用于机器人接触式操作任务中，实现在工业装配等领域中的快速学习和短时间内达到高成功率。研究结果表明，本文所提出的方法在工业插入任务中取得了最多 86% 的成功率，并且使用样本训练的时间不到以往的五分之一。

Apr, 2022