POPCORN：部分观察预测约束强化学习

Jan, 2020

POPCORN：部分观察预测约束强化学习

POPCORN: Partially Observed Prediction COnstrained ReiNforcement Learning

Joseph Futoma, Michael C. Hughes, Finale Doshi-Velez

TL;DR本文提出了一种新的优化目标，以批处理离线策略为特点，即使在某些观测对于规划无关紧要时，该方法也能产生高性能策略和高质量的生成模型，并将其应用于合成样例和一个具有挑战性的医疗决策问题。

Abstract

Many medical decision-making tasks can be framed as partially observed Markov decision processes (pomdps). However, prevailing two-stage approaches that first learn a POMDP and then solve it often fail because th

medical decision-making partially observed markov decision processes pomdps optimization objective batch off-policy settings

发现论文，激发创造

部分可观测环境中的离线策略评估

该论文研究了部分可观察环境下的强化学习离线策略评估的问题，针对部分可观察的马尔可夫决策过程（POMDPs）建立了离线策略评估的模型，并在新模型下对 POMDPs 进行了更准确的评估并证明了重要性采样等传统方法的局限性。

Sep, 2019

递归约束偏观测马尔可夫决策过程

通过引入新的限制性、历史依赖成本约束的递归约束部分可观察马尔可夫决策问题 (RC-POMDP)，本文解决了常规约束部分可观察马尔可夫决策问题 (C-POMDP) 中存在的问题，并提出了一个基于点的动态规划算法来寻找 RC-POMDP 的最优策略。实验证明，相比于 C-POMDP 的策略，RC-POMDP 的策略具有更好的行为，并展示了算法在一组基准问题上的有效性。

Oct, 2023

在线随机情况规划的展开策略

部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题，并提出了两种领域独立的启发式算法，一种基于经典规划中著名的 h_add 启发式算法，另一种在信念空间中计算并考虑信息价值。

Oct, 2023

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

CAR-DESPOT: 机器人在混杂环境中基于因果推断的在线 POMDP 规划

本文提出了使用因果建模和推理的新型持续时间在线部分可观测树规划器的因果知情扩展，以消除未测量混淆变量所引起的误差。同时，我们提出了一种离线学习因果模型的方法，用于规划。我们在一个具有未观察到混淆因素的玩具问题上评估了我们的方法，并表明所学习的因果模型非常准确，而我们的规划方法比 AR-DESPOT 更加抗干扰，并产生更高性能的策略。

Apr, 2023

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023

基于目标的冗余观测环境推断

通过观察其余状态以有效学习核心状态之间的状态转移规则，针对部分可观测马尔科夫决策过程 (POMDP) 提出一种面向目标的强化学习方法。在逐步添加新的核心状态到转换图中的同时，本模型仅包含核心状态，它监督一小部分核心状态以了解动态环境并获得最佳行为策略，这使其具有良好的可解释性。此外，该方法适用于在线学习，可以抑制内存消耗并提高学习速度。

May, 2023

可观测 POMDP 中的学习，无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索 - 利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

部分可观察马尔可夫决策过程中的动态深度强化学习算法

通过将动作序列纳入来解决部分可观察马尔可夫决策过程，本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络，结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。

Jul, 2023

部分可观察的强化学习何时不可怕？

该论文介绍了应用于部分可观测的情况下的强化学习模型，探讨了在一些特殊情况下该模型的使用，提出了一种通过乐观估计与极大似然估计相结合的简单算法，能够保证在这些特殊情况下有多项式样本复杂度可行的方法。

Apr, 2022