基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

Jul, 2023

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

POMDP inference and robust solution via deep reinforcement learning: An application to railway optimal maintenance

Giacomo Arcieri, Cyprien Hoelzl, Oliver Schwery, Daniel Straub, Konstantinos G. Papakonstantinou...

TL;DR本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Abstract

partially observable markov decision processes (POMDPs) can model complex sequential decision-making problems under stochastic and uncertain environments. A main reason hindering their broad adoption in real-world applications is the lack of availability of a suitable POMDP model or a

partially observable markov decision processes reinforcement learning markov chain monte carlo sampling model uncertainty optimal maintenance planning

发现论文，激发创造

基于贝叶斯决策和 POMDP 的模型不确定性下的鲁棒维护计划，以铁路系统为例

该论文提出了一种使用 POMDP 模型进行基础设施维护规划的方法，通过使用 MCMC 采样来从实际监控数据中直接估计模型参数并解决模型不确定性问题，最终成功地应用于铁路轨道资产的维护规划。

Dec, 2022

基于 ODE 的无模型循环强化学习在 POMDP 中的应用

通过结合神经常微分方程和无模型强化学习，我们提出了一种新颖的基于 ODE 的循环模型用于解决部分可观察的马尔可夫决策过程，通过模型推断从历史过渡中提取不可观测的动态相关信息，并通过多个实验验证了方法的有效性和鲁棒性，尤其在处理不规则采样的时间序列方面。

Sep, 2023

部分可观察马尔可夫决策过程中的动态深度强化学习算法

通过将动作序列纳入来解决部分可观察马尔可夫决策过程，本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络，结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。

Jul, 2023

基于目标的冗余观测环境推断

通过观察其余状态以有效学习核心状态之间的状态转移规则，针对部分可观测马尔科夫决策过程 (POMDP) 提出一种面向目标的强化学习方法。在逐步添加新的核心状态到转换图中的同时，本模型仅包含核心状态，它监督一小部分核心状态以了解动态环境并获得最佳行为策略，这使其具有良好的可解释性。此外，该方法适用于在线学习，可以抑制内存消耗并提高学习速度。

May, 2023

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018

基于记忆的深度强化学习在 POMDPs 中的应用

本文介绍了一种基于 LSTM-TD3 的方法，该方法引入了记忆组件以应对部分可观察 MDPs，相比其他 DRL 算法，在具有部分可观察 MDPs 的情况下，该方法具有显著的优势，包括处理丢失和噪声观察数据的能力。

Feb, 2021

机器人中的部分可观察马尔可夫决策过程：综述

这篇综述文章研究多种机器人领域中使用部分可观察马尔可夫决策过程（POMDP）的数学模型和算法，分析它们的特点，并提供适用的决策任务的关键任务特性。

Sep, 2022

关于提高 POMDP 上深度强化学习的方法

提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构，该体系结构使用 LSTM 层来学习潜在状态，以增强在多个部分可观察领域的学习性能，包括 Atari 游戏。

Apr, 2018

强化学习中泛化的困难之处：认知 POMDP 和隐式部分可观测性

本文研究了强化学习系统在现实世界中部署的中心挑战 —— 泛化，并展示了强化学习问题的时序结构需要新的泛化方法，同时介绍了一种新的部分可观察马尔可夫决策过程（POMDP）解决方案 —— 认知 POMDP，通过简单的基于集成的技术解决了部分可观测性问题，证明了所提出的算法对 Procgen 基准套件的表现相比现有方法有显著提高。

Jul, 2021

面向不确定性的机器人强鲁棒规划中的 POMDP-lite

本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite，使用该方法解决机器人任务时计算复杂度减小，我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型，效果优于当前最先进的 POMDP 算法且在适当条件下该算法接近贝叶斯最优。

Feb, 2016