Dec, 2018

量化强化学习的泛化能力

TL;DR本文研究了深度强化学习中的过拟合问题,并使用程序生成的环境来构建不同的训练和测试集,其中引入了一个名为CoinRun的新环境,用作强化学习中泛化的基准。使用CoinRun,作者发现代理程序会对相当大的训练集过拟合,还展示了更深层次的卷积体系结构以及传统监督学习中的方法,包括L2正则化,dropout,数据增强和批标准化等,能够提高泛化能力。