IJCAIMay, 2022

走向应用强化学习:通过策略集提高泛化能力和样本利用率

TL;DR本文介绍了一种名为 Ensemble Proximal Policy Optimization (EPPO) 的强化学习算法,它使用了集成学习方法和多元策略组合优化,采用策略空间多样性增强正则化,可以更好地解决在实际场景中的噪声、环境变化等问题,具有更高效、更鲁棒的性能。