Mar, 2024
基于种群的强化学习的相位多样性优化
Phasic Diversity Optimization for Population-Based Reinforcement Learning
Jingcheng Jiang, Haiyin Piao, Yu Fu, Yihang Hao, Chuanlu Jiang...
TL;DR多样性强化学习中的多样性优化算法中,通过引入一种称为 Phasic Diversity Optimization (PDO) 的基于群体训练的框架,将奖励和多样性分别训练,并在敌对空战和 MuJoCo 仿真中的实验表明,其性能优于基线算法。