部分可观察马尔可夫决策过程中的动态深度强化学习算法

Jul, 2023

部分可观察马尔可夫决策过程中的动态深度强化学习算法

Dynamic deep-reinforcement-learning algorithm in Partially Observed Markov Decision Processes

Saki Omi, Hyo-Sang Shin, Namhoon Cho, Antonios Tsourdos

TL;DR通过将动作序列纳入来解决部分可观察马尔可夫决策过程，本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络，结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。

Abstract

reinforcement learning has been greatly improved in recent studies and an increased interest in real-world implementation has emerged in recent years. In many cases, due to the non-static disturbances, it becomes challenging for the agent to keep the performance. The disturbance result

reinforcement learning partially observable markov decision process estimator recurrent neural network lstm networks

发现论文，激发创造

关于提高 POMDP 上深度强化学习的方法

提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构，该体系结构使用 LSTM 层来学习潜在状态，以增强在多个部分可观察领域的学习性能，包括 Atari 游戏。

Apr, 2018

可验证的表示与高效规划用于部分可观察强化学习

本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题，并通过对表示视图的利用提出了一种可行的强化学习算法，可在部分观测输入下实现比现有算法更高的性能，推动可靠强化学习在实际应用中的应用。

Nov, 2023

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023

部分可观察 MDPs 的深度循环 Q 学习

本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN)，使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层，DRQN 在每个决策点只看到一个帧，但可以成功地通过时间积分信息，并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能，且在不同可观察性情况下 DRQN 的性能也随之变化。因此，recurrency 是 DQN 的一种可替代方式。

Jul, 2015

部分可观察的强化学习何时不可怕？

该论文介绍了应用于部分可观测的情况下的强化学习模型，探讨了在一些特殊情况下该模型的使用，提出了一种通过乐观估计与极大似然估计相结合的简单算法，能够保证在这些特殊情况下有多项式样本复杂度可行的方法。

Apr, 2022

由学习的环境模型指导的部分可观测性下的强化学习

本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法，用于处理部分可观察环境下的控制系统策略生成，将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明，该方法在性能表现上优于六种当下的深度 RL 技术。

Jun, 2022

基于 ODE 的无模型循环强化学习在 POMDP 中的应用

通过结合神经常微分方程和无模型强化学习，我们提出了一种新颖的基于 ODE 的循环模型用于解决部分可观察的马尔可夫决策过程，通过模型推断从历史过渡中提取不可观测的动态相关信息，并通过多个实验验证了方法的有效性和鲁棒性，尤其在处理不规则采样的时间序列方面。

Sep, 2023

可变循环模型求解部分可观测控制任务

本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法，该算法包含了两个部分，即可变循环模型和强化学习控制器；实验证明，该算法比其他方法在数据效率和策略学习上表现更好。

Dec, 2019

基于记忆的深度强化学习在 POMDPs 中的应用

本文介绍了一种基于 LSTM-TD3 的方法，该方法引入了记忆组件以应对部分可观察 MDPs，相比其他 DRL 算法，在具有部分可观察 MDPs 的情况下，该方法具有显著的优势，包括处理丢失和噪声观察数据的能力。

Feb, 2021

可证明高效的部分可观测动态系统强化学习

通过提出一种新的基于双线性 Actor-Critic 框架的学习算法，该算法可以对部分可观察的动态系统进行部分可观察的强化学习，并且在特定的情形下（如欠完备的可观察性模型）具有较高的性能表现。

Jun, 2022