PEGASUS：用于大型 MDPs 和 POMDPs 的策略搜索方法

Jan, 2013

PEGASUS：用于大型 MDPs 和 POMDPs 的策略搜索方法

PEGASUS: A Policy Search Method for Large MDPs and POMDPs

Andrew Y. Ng, Michael I. Jordan

TL;DR在马尔可夫决策过程 (MDP) 或部分可观测马尔可夫决策过程 (POMDP) 中搜索策略的问题上，我们提出了一种新的方法，即通过将（PO）MDP 换成一个 “等价” 的 POMDP，其中所有状态转换都是确定性的，然后通过搜索价值最高的策略来进行策略搜索，该方法适用于任意 POMDP 并且已经在自行车学习问题上进行了实证。

Abstract

We propose a new approach to the problem of searching a space of policies for a markov decision process (MDP) or a partially observable Markov decision process (POMDP), given a model. Our approach is based on the following observation: Any (PO)MDP can be transformed into an "equivalent

markov decision process partially observable markov decision process policy search deterministic transitions value estimates

发现论文，激发创造

搜索有限策略空间求解 POMDPs

本文研究部分可观察马尔可夫决策过程（POMDPs）的解决方案，探讨如何从有限状态自动机的限制集合中找到最佳策略，进而展示了通过分支定界法和梯度上升法寻找全局最优确定性策略和局部最优随机策略的优越实验结果。

Jan, 2013

无限时间视角的策略梯度估计

本文提出了一种名为 GPOMDP 的基于模拟的算法，用于在部分可观测马尔可夫决策过程（POMDPs）中控制参数化随机策略，生成偏差估计的平均奖励梯度。

Jun, 2011

Perseus: POMDPs 随机基于点的价值迭代

介绍了一种基于点集采样的算法 ——Perseus，使用该算法可以解决大规模的部分可观测马尔可夫决策过程问题，其通过随机选择子集进行值迭代，提高信念集中每个点的值，特别适用于连续动作空间。

Sep, 2011

多智能体场景下的序列规划框架

本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上，将代理模型纳入到状态空间中，使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念，并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察，但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。

Sep, 2011

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

POMDP 的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。

Jan, 2014

POMDP 中的策略指导的逻辑规范学习：归纳逻辑编程方法

从 POMDP 执行的痕迹中学习得到高质量的启发式方法，通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范，以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。

Feb, 2024

Dec-POMDP 中的平衡 Monte-Carlo 搜索

本文介绍了一种基于模拟的 POMDP 求解器来构建 Dec-POMDP 的有限状态控制器节点以及一种相关的方法来启发式地导出初始 FSC，称为 MC-JESP，实验证明其竞争力甚至优于使用显式模型的许多离线方法

May, 2023

通过信念压缩寻找近似的 POMDP 解决方案

该研究提出了一种用于解决大型部分观察马尔可夫决策过程（POMDPs）的算法，通过降低置信度空间的维度来进行策略逼近，其中采用了指数族主成分分析方法，并且该算法成功地应用于合成问题和移动机器人导航任务中。

Jun, 2011

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011