风险厌恶 POMDP 的简化与绩效保证

Jun, 2024

Simplification of Risk Averse POMDPs with Performance Guarantees

Yaacov Pariente, Vadim Indelman

TL;DR在部分可观察域中，面临不确定性的风险规避决策是人工智能领域的一个基本问题，对于可靠的自主代理至关重要。本研究使用部分可观察的马尔可夫决策过程（POMDPs）建模并采用回报的条件风险价值（CVaR）作为值函数。这项工作开发了一个简化框架，以加快值函数的评估速度，并提供性能保证。我们考虑了一种计算代价更低的信念 - MDP 转移模型作为简化方法，该模型可以对应于更廉价的观察或转移模型。我们的贡献包括一般的 CVaR 界限，通过假设两个累积分布之间的界限，可以使用一个随机变量 Y 来限制随机变量 X 的 CVaR。然后，我们推导出 POMDP 设置下 CVaR 值函数的界限，并展示了如何使用计算代价更低的信念 - MDP 转移模型来限制值函数，而无需实时访问计算代价高昂的模型。接着，我们提供了对估计边界的理论性能保证。我们的结果适用于对信念 - MDP 转移模型的一般简化，并可以同时简化观察和状态转移模型。

Abstract

risk averse decision making under uncertainty in partially observable domains is a fundamental problem in AI and essential for reliable autonomous agents. In our case, the problem is modeled using partially obser

risk averse decision making partially observable domains conditional value at risk partially observable markov decision processes computationally cheaper belief-mdp transition model

发现论文，激发创造

在具有概率保证和实践的连续 POMDP 规划中简化复杂的观测模型

使用简化观测模型进行规划，同时保证解决方案的质量，无需在规划过程中访问昂贵的模型，以统计总变差距离为基础提出了一种新的概率界，通过广义化最近的粒子 - 信念 MDP 收敛性界限的结果来限制理论 POMDP 值与简化模型下的经验规划值之间的差距，并演示了如何将这种界限整合到现有的连续在线 POMDP 求解器的常规例程中。

Nov, 2023

带有性能保证的 ρ-POMDP 中的测量简化

该研究论文介绍了一种有效的决策制定方法，通过对高维观测空间进行划分，并利用这种划分提出了分析边界，以求得期望的信息论奖励，进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善，在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。

Sep, 2023

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

通过限制条件风险价值实现安全的强化学习

本文介绍了一种新的增强学习算法 - CVaR-Proximal-Policy-Optimization (CPPO)，该算法利用条件风险价值 (CVaR) 进行评估，同时保持其 CVaR 在给定阈值以下，实现了在连续控制任务中对观测和转移扰动更强的鲁棒性。

Jun, 2022

风险敏感和鲁棒决策：CVaR 优化方法

本文提出了一种在 MDP 框架下考虑风险和建模误差的决策方法，采用风险敏感条件价值风险 (CVaR) 目标，同时探讨了 CVaR MDP 框架在风险敏感和鲁棒决策制定中的应用，其理论分析和数值实验结果均证明了该方法的实用性和有效性。

Jun, 2015

具有条件风险价值的鲁棒风险敏感强化学习

使用固定过渡概率的标准马尔科夫决策过程（MDPs）的替代方案，鲁棒马尔科夫决策过程（RMDPs）在不确定性集合中优化最坏情况下的结果。本文研究了在 RMDP 下基于 CVaR 的风险敏感强化学习的鲁棒性，分析了预先设定的不确定性集合和状态动作相关的不确定性集合，提出了风险度量 NCVaR 和相应的优化方法，并通过仿真实验验证了该方法的有效性。

May, 2024

风险感知自适应基于信念的概率约束连续 POMDP 规划

本研究针对部分可观察领域的连续 POMDP 问题，提出了一种新的风险厌恶且基于信念的概率限制解决方案，并给出了对应的算法。通过对信念相关的奖励和约束算子的处理，本文提出的方法在满足相同约束条件下，比现有技术更加风险厌恶、更加灵活。实验结果表明，该方法在解决连续 POMDP 问题中具有显著的优势。

Sep, 2022

在 MDPs 中进行 CVaR 优化的算法

本文研究在马尔可夫决策过程中的均值 - CVaR 优化问题，并提出了策略梯度和演员评论算法，以在局部风险敏感的最优策略中更新策略参数，解决了一个最优停止问题。

Jun, 2014

POMDP 中的期望总奖励欠估计算

本文研究了如何通过计算部分可观察马尔可夫决策过程的总期望奖励的下界来解决通常难以解决的问题，提供了两种技术：使用良好策略的简单技术和使用概率之间的最小移位的更高级别的技术。同时，本文还使用混合整数线性规划找到这样最小概率移位，并在实验中表明了这些技术的可扩展性和其提供的紧缩的下界值。

Jan, 2022