不确定性下的风险规避规划

Sep, 2019

Risk-Averse Planning Under Uncertainty

Mohamadreza Ahmadi, Masahiro Ono, Michel D. Ingham, Richard M. Murray, Aaron D. Ames

TL;DR本文提出基于有限状态控制器的有界策略迭代方法，通过标准的凸优化算法设计出完全风险规避的 POMDP 最优策略，并针对给定的记忆预算和优化指标对控制器进行修改以减小一致风险。

Abstract

We consider the problem of designing policies for partially observable Markov decision processes (POMDPs) with dynamic coherent risk objectives. Synthesizing risk-averse optimal policies for POMDPs requires infin

partially observable markov decision processes dynamic coherent risk objectives bounded policy iteration convex optimization methods coherent risk

发现论文，激发创造

无记忆随机策略优化在无限时域 POMDP 中的几何

本研究考虑了有限状态和动作空间的无穷时部分观察到的马尔可夫决策问题中，根据折扣或平均收益准则找到最佳的无记忆随机策略并描述了优化问题作为可行状态 - 动作频率空间中的线性优化问题并使用了多项式优化的最大化奖励来解决导航问题。

Oct, 2021

约束风险厌恶马尔可夫决策过程

该研究旨在设计面向具有动态一致风险目标和约束的马尔可夫决策过程的策略。作者提出了一个基于优化的方法来综合最小化受约束的风险 - 厌恶问题的可行马尔可夫策略，并通过数值实验验证了该方法的有效性。

Dec, 2020

部分可观马尔可夫决策过程中最优稳态控制的几何与确定性

本研究旨在解决部分可观测的马尔科夫决策过程中最大化期望奖励的问题，将其转化为线性规划问题，并研究了用于减少搜索空间的有限随机性的最优无记忆策略的几何框架，进而通过实验说明了该方法有助于更好更快地收敛到策略梯度。

Mar, 2015

马尔科夫决策过程中约束风险的强化学习策略

本研究提出了一种基于 MDPs 的风险受限规划算法，它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合，以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。

Feb, 2020

带安全可达目标的 POMDP 有界策略合成

本文研究了带安全可达性目标的部分可观测马尔可夫决策过程（POMDPs），提出了一种基于目标约束信念空间和符号约束的方法来合成能实现安全可达性目标的策略，并通过实验结果表明，该方法能够在大量信念空间中高效地搜索有效策略。

Jan, 2018

搜索有限策略空间求解 POMDPs

本文研究部分可观察马尔可夫决策过程（POMDPs）的解决方案，探讨如何从有限状态自动机的限制集合中找到最佳策略，进而展示了通过分支定界法和梯度上升法寻找全局最优确定性策略和局部最优随机策略的优越实验结果。

Jan, 2013

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略

该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题，在未知参数和固定先验分布的情况下，能够稳定地获得近似最优解，适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。

Jun, 2023

风险感知自适应基于信念的概率约束连续 POMDP 规划

本研究针对部分可观察领域的连续 POMDP 问题，提出了一种新的风险厌恶且基于信念的概率限制解决方案，并给出了对应的算法。通过对信念相关的奖励和约束算子的处理，本文提出的方法在满足相同约束条件下，比现有技术更加风险厌恶、更加灵活。实验结果表明，该方法在解决连续 POMDP 问题中具有显著的优势。

Sep, 2022

带有线性时态逻辑规约的 POMDPs 的随机有限状态控制

本研究提出了一种基于 POMDPs 的任意时间算法，通过在线性时态逻辑（LTL）清单约束条件下最大化满足概率来合成次优随机有限状态控制器（sFSCs），并通过机器人导航案例研究表明了该方法的有效性。

Jan, 2020