Jul, 2018

输入驱动环境下的强化学习方差缩减

TL;DR研究了输入驱动环境中的强化学习问题,提出了一种无偏差、输入依赖的基线模型及元学习方法,实验结果表明相较于状态依赖的基线模型,输入依赖的模型可以提高训练稳定性并得到更好的训练结果。