Mar, 2024

基于种群的强化学习的相位多样性优化

TL;DR多样性强化学习中的多样性优化算法中,通过引入一种称为 Phasic Diversity Optimization (PDO) 的基于群体训练的框架,将奖励和多样性分别训练,并在敌对空战和 MuJoCo 仿真中的实验表明,其性能优于基线算法。