利用领域知识提高 POMDP 信念估计

Feb, 2023

Utilization of domain knowledge to improve POMDP belief estimation

Tung Nguyen, Johane Takeuchi

TL;DR使用 Jeffrey 的规则和标准化，将领域专业知识整合到部分可观察马尔科夫决策过程中概率信念更新的新方法，表明领域知识可以减少数据需求，提高使用强化学习的 POMDP 策略学习的性能。

Abstract

The partially observable markov decision process (POMDP) framework is a common approach for decision making under uncertainty. Recently, multiple studies have shown that by integrating relevant domain knowledge i

partially observable markov decision process belief estimation domain knowledge policy learning reinforcement learning

发现论文，激发创造

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

多智能体场景下的序列规划框架

本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上，将代理模型纳入到状态空间中，使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念，并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察，但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。

Sep, 2011

POMDP 中的策略指导的逻辑规范学习：归纳逻辑编程方法

从 POMDP 执行的痕迹中学习得到高质量的启发式方法，通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范，以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。

Feb, 2024

POMDP 的粒子信念逼近的最优性保证

本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中，与其他领先的连续观察 POMDP 求解器相比，表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。

Oct, 2022

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023

基于模型的强化学习中的信息 POMDP：利用额外信息

本文使用 POMDP 进行交互学习，并引入了信息学习的范例，提出了学习充分统计来实现最优控制的目标，并通过新提出的环境模型进行学习，最后在 Dreamer 算法中证明了这种方法的有效性和简单性，建议在模型为基础的 RL 的学习中系统考虑未来的附加信息

Jun, 2023

针对 POMDP 的模仿学习中的信仰表征学习

该研究使用生成对抗（GAN）深度神经网络引导非马尔可夫策略策略的置信度表示，在一定程度上解决了部分可观察马尔可夫决策过程（POMDP）中的模仿学习问题。

Jun, 2019

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

POMDP 的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。

Jan, 2014

POMDP 数据高效模型学习的变分推断

本研究提出 DELIP 作为 POMDP 模型学习的方法，利用摊销结构化变分推理，模型结合最先进的规划器能够在不确定性环境下获得有效的控制策略。

May, 2018