Oct, 2020

鲁棒受限制马尔科夫决策过程: 在模型不确定性下进行软受限制鲁棒策略优化

TL;DR本文介绍了一个基于Constrained Markov Decision Process(CMDP)和Robust Markov Decision Process(RMDP)的框架,即Robust Constrained-MDPs(RCMDP),用于设计强大而稳健的强化学习算法,并提供相应的约束满足保证。同时,还将这个框架用于从模拟到真实世界的政策转移中,以实现对模型不确定性的强鲁棒性和安全保障。最后,我们在库存管理问题上验证了这个框架的有效性。