Sep, 2022

RASR: 带有 EVaR 和熵风险的风险规避型软鲁棒 MDPs

TL;DR提出一种新的框架,称为 Risk-Averse and Soft-Robust methods (RASR),用于联合建模有限和无限时域 rMarkov 决策过程(MDP)中的认识不确定性和 aleatory 不确定性与刻画风险。在 RASR 中,当风险是使用 EVaR 或熵风险定义时,可以使用时间依赖的风险级别使用动态程序形式化地计算最优风险规避策略。我们还发现特定的 RASR 目标简化为具有后验平均转移概率的风险规避 RL。实验结果表明,我们新的算法通过 EVaR 和其他标准风险度量一致地缓解不确定性。