Jun, 2018

使用 Reservoir Sampling 将情景记忆集成到强化学习智能体中

TL;DR该文研究了利用固定数量的过去状态来维护一个外部内存的新算法,使得深度强化学习代理能够在线记忆有用的状态,并可以在在线强化学习设置中实现梯度估计。