面向多智体强化学习的熟练人口课程

Feb, 2023

面向多智体强化学习的熟练人口课程

Towards Skilled Population Curriculum for Multi-Agent Reinforcement Learning

Rundong Wang, Longtao Zheng, Wei Qiu, Bowei He, Bo An...

TL;DR该论文介绍了一种名为SPC的新型自动课程学习框架，该框架将课程学习应用于多智能体协调中，通过赋予学生团体不变的通信和分层技能，在不同数量的代理任务中学习合作和行为技能，并在学生策略的条件下将老师建模为一个情境式赌博机，提高了MARL环境下的性能、可伸缩性和样本效率。

Abstract

Recent advances in multi-agent reinforcement learning (MARL) allow agents to coordinate their behaviors in complex environments. However, common MARL algorithms still suffer from scalability and sparse reward issues. One promising approach to resolving them is →

发现论文，激发创造

强化学习中的课程表政策学习

本文研究课程学习在强化学习中的应用，并针对多个传递学习算法扩展已有的课程设计方法，通过学习MDP（Markov Decision Process)过程中的课程策略，得出可以用于训练代理人的课程，进而实现更快或同等方法的学习效率。

Dec, 2018

通过设置器-求解器交互自动生成课程

研究探讨了如何在动态的环境下使用自动生成的任务大纲来改善智能体的效果，介绍了使用目标的有效性、可行性和覆盖面的考虑来构建有用的任务大纲的新技术，并在2D和3D环境中展示了成功应用。

Sep, 2019

深度强化学习的自动课程学习：简要调查

本文介绍了自动课程学习（ACL）的相关文献，并对当前状态进行了概述，旨在促进现有概念的交叉和新思想的出现。ACL是深度强化学习成功的中坚力量，可用于改善样本效率和渐进性能，组织探索，鼓励泛化或解决稀疏奖励问题，等等。

Mar, 2020

强化学习领域的课程学习: 框架与综述

本文提出了强化学习中的课程学习框架，并使用此框架对现有的课程学习方法进行分类和研究，以找出未解决的问题并提出未来研究的方向。

Mar, 2020

演化种群课程用于多智能体强化学习的扩展

本研究提出了一种进化人口课程学习模式(EPC)，以解决在多智能体游戏中训练大型人口的问题，采用进化方式解决利益不一致问题和保留每个阶段的多个智能体组以优化其适应性。并将EPC应用于MADDPG算法中，实验结果表明本方法在多智能体增长的情况下能够始终优于基准算法。

Mar, 2020

通过价值分歧进行自动课程学习

通过提出自动课程设计和目标建议模块，来提高强化学习中的多任务目标采样效率，并在机器人和导航任务中展示了比现有方法更好的性能。

Jun, 2020

自适应多智能体强化学习

本文介绍了自适应多智能体强化学习(Self-paced MARL)，它可以根据任务的难度自动优化智能体数量，实验结果显示该方法在智能体数量对任务难度有足够影响时可以提高任务表现。

May, 2022

自动机导向下的强化学习智能体课程生成

提出了AGCL，一种基于确定性有限状态自动机（DFA）和面向对象马尔可夫决策过程（OOMDP）表示法的自动生成课程的方法，该方法在格子世界和基于物理仿真的机器人领域中的实验表明，AGCL 产生的课程在时间阈值性能上比最先进的课程学习和自动机引导强化学习技术实现了性能的提高。

Apr, 2023

无任务特定知识的自主强化学习自我监督课程生成

提出了一种新颖的自主强化学习算法，能够根据智能体的学习进展生成自适应课程，使智能体能够高效地解决稀疏奖励迷宫导航任务，同时减少了手动复位。

Nov, 2023

多智能体强化学习中的协作课程学习

在多智能体环境中，通过使用降低技能水平的协作队友为学习代理制定学习课程，能够同时实现任务完成与整体团队奖励最优。

Dec, 2023