POMDP 问题的循环自然策略梯度

May, 2024

Recurrent Natural Policy Gradient for POMDPs

Semih Cayci, Atilla Eryilmaz

TL;DR研究基于循环神经网络（RNNs）的自然策略梯度方法，用于部分可观测的马尔可夫决策过程，其中 RNNs 用于策略参数化和策略评估，以解决非马尔可夫强化学习中的维度问题。通过有限时间和有限宽度的分析，我们证明了 RNN 在具有短期记忆问题的情况下的效率，并明确了所需网络宽度和样本复杂性的界限，同时指出了长期依赖情况下的挑战。

Abstract

In this paper, we study a natural policy gradient method based on recurrent neural networks (RNNs) for partially-observable markov decision processes, whereby RNNs are used for policy parameterization and policy

policy gradient method recurrent neural networks partially-observable markov decision processes curse of dimensionality non-markovian reinforcement learning

发现论文，激发创造

自然策略梯度算法的线性收敛性

本文研究了应用于马尔可夫决策过程中的自然策略梯度算法，在此基础上提出具有自适应步长的改进方法，并通过实验比较不同变种的策略梯度方法。

May, 2021

无限时间视角的策略梯度估计

本文提出了一种名为 GPOMDP 的基于模拟的算法，用于在部分可观测马尔可夫决策过程（POMDPs）中控制参数化随机策略，生成偏差估计的平均奖励梯度。

Jun, 2011

基于记忆的循环神经网络控制

本研究利用 RNN 与反向传播算法，扩展了两个连续控制的无模型算法，能够成功地解决大量的物理控制问题，包括部分受到噪声干扰而需要信息短暂整合的问题，以及需要在多个时间步骤中保留信息的长期记忆问题，并且使用简化版本的 Morris 水迷宫任务进行了探索与记忆结合问题的研究。同时，通过直接从像素中学习，能够处理高维度的观测问题。

Dec, 2015

一种用于混杂 POMDP 的策略梯度方法

该研究提出了一个新的策略梯度方法，并利用脱机数据建立了一个新的识别结果，解决了条件矩限制，提供了有限样本的非渐变界，最后证明了在某些技术条件下提出的算法的全局收敛性，这是第一份研究脱机设置下的 POMDP 的策略梯度方法的文献。

May, 2023

基于 ODE 的无模型循环强化学习在 POMDP 中的应用

通过结合神经常微分方程和无模型强化学习，我们提出了一种新颖的基于 ODE 的循环模型用于解决部分可观察的马尔可夫决策过程，通过模型推断从历史过渡中提取不可观测的动态相关信息，并通过多个实验验证了方法的有效性和鲁棒性，尤其在处理不规则采样的时间序列方面。

Sep, 2023

POMDPs 和可解释的代理的端到端策略梯度方法

一个 RL 算法，可以通过端到端训练来估算隐藏状态，并将估算可视化为状态转换图。实验结果表明，该算法可以解决简单的 POMDP 问题，并使代理行为可解释给人类。

Apr, 2023

带拓扑约束的多目标策略梯度

本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程（TMDPs）的策略梯度定理及其实现，进一步扩展了 TMDPs 在面对多种复杂问题方面的应用，提出了一种针对多目标导航问题的新算法，并在模拟环境和实际机器人上进行了演示。

Sep, 2022

乐观自然策略梯度：一种简单高效的在线强化学习策略优化框架

本文提出了一种称为 Optimistic NPG 的简单高效策略优化框架，该框架的样本复杂度具有最优的维度依赖性，可以高效地学习线性 MDP 和函数逼近下的最优策略。

May, 2023

基于模型重参数化的策略梯度方法：理论与实用算法

对长期强化学习问题应用基于模型的 ReParameterization Policy Gradient Methods 时，可能遇到爆炸梯度方差引起的优化困难。通过对模型的收敛性和函数逼近器的平滑性的分析，我们提出了一种谱归一化方法以缓解长模型展开引起的方差问题。实验结果表明，适当的归一化显著降低了基于模型的 ReParameterization Policy Gradient Methods 的梯度方差。与 Likelihood Ratio 梯度估计器等其他梯度估计器相比，我们的方法的性能相当或更好。

Oct, 2023

基于记忆的深度强化学习在 POMDPs 中的应用

本文介绍了一种基于 LSTM-TD3 的方法，该方法引入了记忆组件以应对部分可观察 MDPs，相比其他 DRL 算法，在具有部分可观察 MDPs 的情况下，该方法具有显著的优势，包括处理丢失和噪声观察数据的能力。

Feb, 2021