Sep, 2022

RASR: 带有EVaR和熵风险的风险规避型软鲁棒MDPs

TL;DR提出一种新的框架,称为Risk-Averse and Soft-Robust methods (RASR),用于联合建模有限和无限时域rMarkov决策过程(MDP)中的认识不确定性和aleatory不确定性与刻画风险。在RASR中,当风险是使用EVaR或熵风险定义时,可以使用时间依赖的风险级别使用动态程序形式化地计算最优风险规避策略。我们还发现特定的RASR目标简化为具有后验平均转移概率的风险规避RL。实验结果表明,我们新的算法通过EVaR和其他标准风险度量一致地缓解不确定性。