May, 2024

POMDP 问题的循环自然策略梯度

TL;DR研究基于循环神经网络(RNNs)的自然策略梯度方法,用于部分可观测的马尔可夫决策过程,其中 RNNs 用于策略参数化和策略评估,以解决非马尔可夫强化学习中的维度问题。通过有限时间和有限宽度的分析,我们证明了 RNN 在具有短期记忆问题的情况下的效率,并明确了所需网络宽度和样本复杂性的界限,同时指出了长期依赖情况下的挑战。