MMJun, 2020

多样性策略梯度用于高效样本质量多样化优化

TL;DR本文提出了一种新算法 QDPG,它结合了策略梯度算法和质量多样性方法,用于在连续控制环境中生成多样化和高性能的神经控制器,并且比其他进化算法更具样本效率。