Oct, 2023

通过对抗环境设计发现通用的强化学习算法

TL;DR通过分析元训练分布的特征对学习策略的泛化性能的影响,并结合无监督环境设计的思想,提出一种通过环境设计获得的通用强化学习优化器的新方法(GROOVE),该方法在一系列实验中展现了优于现有算法的泛化能力,并将算法遗憾(AR)作为环境设计中的关键组成部分加以评估。我们认为这一方法是朝着实现真正通用能解决各种现实环境的强化学习算法的一步。