通过难度条件生成器可转移课程

IJCAIJun, 2023

Transferable Curricula through Difficulty Conditioned Generators

Sidney Tio, Pradeep Varakantham

TL;DR该论文介绍了一种名为参数化环境响应模型（PERM）的方法，该方法可以根据学生的当前能力将环境的难度匹配到一个合适的 “接受挑战的区域”，以提高训练效率和知识传输，并且 PERM 可以在离线上进行培训，适用于学生之间的传输。

Abstract

Advancements in reinforcement learning (RL) have demonstrated superhuman performance in complex tasks such as Starcraft, Go, Chess etc. However, knowledge transfer from Artificial "Experts" to humans remain a sig

reinforcement learning curricula parameterized environment response model training efficiency knowledge transfer

发现论文，激发创造

用难度条件生成器训练强化学习代理与人类

我们使用参数环境响应模型（PERM）来训练强化学习代理和人类学习者，在模型中直接建模难度和能力，并且将环境的难度和个体的能力进行对齐，创建了基于最近发展区域的课程。PERM 能够在不进行实时强化学习更新且能够进行离线训练的情况下适应各种学生。我们提出了一种利用 PERM 适应性的两阶段训练过程，并通过实证研究证明了它在训练强化学习代理和人类学习者方面的有效性。

Dec, 2023

强化学习中的师生课程学习

提出了一种基于师生课程学习的强化学习方法，该方法独立于人类领域知识和手动课程设置，可以改善学生的样本效率和通用性。

Oct, 2022

连续参数环境下深度强化学习课程学习的教师算法

本研究探讨如何使用教师算法使得未知的深度强化学习算法的学习在不同的环境中变得能够拓展。研究表明，教师算法可以通过学习生成一系列逐步采样的参数来控制生成的随机过程环境，使其最终有效地提高学生的知识水平。通过建立连续赌博问题的代理模型，我们提出了一种新算法来建模绝对学习进展。我们还针对 DRL 算法进行了全面的研究，通过对 BipedalWalker 环境的参数化变体，我们研究了算法快速个性化建立不同学生的学习计划的效率，以及对可学环境 / 不可学环境的比率的鲁棒性，以及对于高维参数空间的可扩展性

Oct, 2019

尝试时重来，而不是尝试更久：自适应课程学习的先验学习

该研究论文提出了一种两阶段自适应教学方法，以提高深度强化学习（DRL）智能体的性能，主要包括使用过程生成任务、自动课程学习（ACL）和探索课程等关键词。

Apr, 2020

通过设置器 - 求解器交互自动生成课程

研究探讨了如何在动态的环境下使用自动生成的任务大纲来改善智能体的效果，介绍了使用目标的有效性、可行性和覆盖面的考虑来构建有用的任务大纲的新技术，并在 2D 和 3D 环境中展示了成功应用。

Sep, 2019

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023

加速机器人学习接触丰富的操纵：一个课程学习研究

本研究结合课程学习和域随机化方法，探究如何快速应用于机器人接触式操作任务中，实现在工业装配等领域中的快速学习和短时间内达到高成功率。研究结果表明，本文所提出的方法在工业插入任务中取得了最多 86% 的成功率，并且使用样本训练的时间不到以往的五分之一。

Apr, 2022

无任务特定知识的自主强化学习自我监督课程生成

提出了一种新颖的自主强化学习算法，能够根据智能体的学习进展生成自适应课程，使智能体能够高效地解决稀疏奖励迷宫导航任务，同时减少了手动复位。

Nov, 2023

强化学习中的课程表政策学习

本文研究课程学习在强化学习中的应用，并针对多个传递学习算法扩展已有的课程设计方法，通过学习 MDP（Markov Decision Process) 过程中的课程策略，得出可以用于训练代理人的课程，进而实现更快或同等方法的学习效率。

Dec, 2018

面向困难度调整的课程强化学习中的人类决策

研究人员设计了一个交互平台，利用人类的决策过程，通过向导课程强化学习结果，实现了成功地调整强化学习性能以适应人类期望困难程度的目标，并证明人类与计算机互动式课程增强学习的有效性，促进了该领域的发展。

Aug, 2022