IJCAIJun, 2021

利用剧集记忆解决连续控制问题

TL;DR本研究使用 Actor-Critic 架构,通过修改 critic 的目标函数,将记忆机制引入连续控制问题中,使用基于经验的记忆缓冲区优先级排列方式,验证了在广泛的行动空间下,使用记忆机制能够提高连续控制中代理的性能,并且相较于最先进的自由模型离线算法,实现了更高的样本效率。