Dec, 2019

利用程序生成技术评估强化学习

TL;DRProcgen Benchmark 是一套 16 个生成环境的测试套件,旨在评估强化学习在样本效率和泛化性能方面的表现,为此提供了详细的实验协议,并经验证明多样性的环境分布是充分训练和评估 RL agent 的关键,从而促进了生成内容的广泛使用。我们使用此基准测试来研究模型大小的影响,并发现大型模型显著提高了样本效率和泛化性能。