Aug, 2024

在不确定的参数环境中学习可证明的鲁棒政策

TL;DR本研究解决了在过渡概率未知分布的随机环境中学习马尔可夫决策过程(MDP)政策的挑战。提出了一种数据驱动的方法,通过构建区间MDP的模型近似,以合成在采样环境下表现良好的单一政策,并提供了在未知新环境中仍能满足性能要求的保障。研究结果展示了所提方法在多种基准测试中的高性能和鲁棒性,并量化了其相关风险。