关键词procedurally generated environments
搜索结果 - 2
- 通过对比学习在强化学习中发现层次成就
在本研究中,我们发现了一种名为近似策略优化(PPO)的简单而多功能的无模型算法,其比之前的方法在最近的实施实践中表现更好。此外,我们还发现 PPO 代理在某种程度上能够预测下一个要解锁的成就,尽管置信度较低。基于这一发现,我们提出了一种名为 - 量化强化学习的泛化能力
本文研究了深度强化学习中的过拟合问题,并使用程序生成的环境来构建不同的训练和测试集,其中引入了一个名为 CoinRun 的新环境,用作强化学习中泛化的基准。使用 CoinRun,作者发现代理程序会对相当大的训练集过拟合,还展示了更深层次的卷