Feb, 2021

基于记忆的深度强化学习在 POMDPs 中的应用

TL;DR本文介绍了一种基于 LSTM-TD3 的方法,该方法引入了记忆组件以应对部分可观察 MDPs,相比其他 DRL 算法,在具有部分可观察 MDPs 的情况下,该方法具有显著的优势,包括处理丢失和噪声观察数据的能力。