基于遗憾的环境设计进化课程

Mar, 2022

Evolving Curricula with Regret-Based Environment Design

Jack Parker-Holder, Minqi Jiang, Michael Dennis, Mikayel Samvelyan, Jakob Foerster...

TL;DR通过把环境设计作为学生和教师之间的游戏，并使用基于遗憾的目标在学生代理的能力边界上生成环境实例（或水平），我们提出了一种新的方法 ACCEL，以在一个有原则的遗憾主导的课程中利用演化的能力，从而产生逐渐越来越复杂的课程。

Abstract

It remains a significant challenge to train generally capable agents with reinforcement learning (RL). A promising avenue for improving the robustness of RL agents is through the use of curricula. One such class of methods frames →

reinforcement learning curriculum evolutionary approaches environment design agent's capabilities

发现论文，激发创造

深度强化学习代理的进化策划课程学习

本文提出了一个针对深度强化学习代理的新的训练循环，采用进化生成器进行进化过程生成来构建训练课程，结果表明相较于没有导向的输入，进化课程的训练优化和泛化能力均有所提高。

Jan, 2019

基于演化课程训练的 DRL 导航系统训练

本文介绍了一种名为进化课程训练的新方法，以应对机器人避碰中经常出现的一些挑战，包括在结构化环境中适应多种行人，本方法能够提高深度强化学习模型在此类复杂场景中的成功率和降低平均碰撞率。

Jun, 2023

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023

通过对抗环境设计发现通用的强化学习算法

通过分析元训练分布的特征对学习策略的泛化性能的影响，并结合无监督环境设计的思想，提出一种通过环境设计获得的通用强化学习优化器的新方法（GROOVE），该方法在一系列实验中展现了优于现有算法的泛化能力，并将算法遗憾（AR）作为环境设计中的关键组成部分加以评估。我们认为这一方法是朝着实现真正通用能解决各种现实环境的强化学习算法的一步。

Oct, 2023

基于精度的课程学习在深度强化学习中的应用

本文研究了一种基于精度要求自适应选择的自动课程学习的新形式。使用基于 Deep Deterministic Policy Gradient 算法的强化学习代理和解决 Reacher 环境，我们首先展示了随机采样不同精度要求训练的代理比一直很精确的代理学习更加高效；然后，我们展示了基于局部能力进度的自适应精度要求选择可以自动生成一个难度不断递增的课程，从而提高学习效率。

Jun, 2018

演化种群课程用于多智能体强化学习的扩展

本研究提出了一种进化人口课程学习模式 (EPC)，以解决在多智能体游戏中训练大型人口的问题，采用进化方式解决利益不一致问题和保留每个阶段的多个智能体组以优化其适应性。并将 EPC 应用于 MADDPG 算法中，实验结果表明本方法在多智能体增长的情况下能够始终优于基准算法。

Mar, 2020

通过设置器 - 求解器交互自动生成课程

研究探讨了如何在动态的环境下使用自动生成的任务大纲来改善智能体的效果，介绍了使用目标的有效性、可行性和覆盖面的考虑来构建有用的任务大纲的新技术，并在 2D 和 3D 环境中展示了成功应用。

Sep, 2019

基于贝叶斯优化的课程学习提升自主驾驶深度强化学习方法的环境鲁棒性

通过贝叶斯优化进行概率推理的课程学习方法在自主赛车避障领域表现优于基准的深度强化学习代理与手工设计的课程。

Dec, 2023

通过难度条件生成器可转移课程

该论文介绍了一种名为参数化环境响应模型（PERM）的方法，该方法可以根据学生的当前能力将环境的难度匹配到一个合适的 “接受挑战的区域”，以提高训练效率和知识传输，并且 PERM 可以在离线上进行培训，适用于学生之间的传输。

Jun, 2023

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023