Jun, 2024

风险厌恶 POMDP 的简化与绩效保证

TL;DR在部分可观察域中,面临不确定性的风险规避决策是人工智能领域的一个基本问题,对于可靠的自主代理至关重要。本研究使用部分可观察的马尔可夫决策过程(POMDPs)建模并采用回报的条件风险价值(CVaR)作为值函数。这项工作开发了一个简化框架,以加快值函数的评估速度,并提供性能保证。我们考虑了一种计算代价更低的信念 - MDP 转移模型作为简化方法,该模型可以对应于更廉价的观察或转移模型。我们的贡献包括一般的 CVaR 界限,通过假设两个累积分布之间的界限,可以使用一个随机变量 Y 来限制随机变量 X 的 CVaR。然后,我们推导出 POMDP 设置下 CVaR 值函数的界限,并展示了如何使用计算代价更低的信念 - MDP 转移模型来限制值函数,而无需实时访问计算代价高昂的模型。接着,我们提供了对估计边界的理论性能保证。我们的结果适用于对信念 - MDP 转移模型的一般简化,并可以同时简化观察和状态转移模型。