Jul, 2018
输入驱动环境下的强化学习方差缩减
Variance Reduction for Reinforcement Learning in Input-Driven Environments
Hongzi Mao, Shaileshh Bojja Venkatakrishnan, Malte Schwarzkopf, Mohammad Alizadeh
TL;DR研究了输入驱动环境中的强化学习问题,提出了一种无偏差、输入依赖的基线模型及元学习方法,实验结果表明相较于状态依赖的基线模型,输入依赖的模型可以提高训练稳定性并得到更好的训练结果。