Nov, 2023

基于分布鲁棒的强化学习基础探讨

TL;DR鉴于训练和部署之间环境变化的需求,我们对分布稳健强化学习(DRRL)的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程(DRMDPs)为核心的综合建模框架,我们严谨地构建了适用于决策者和对手的各种建模属性。此外,我们还研究了对手引起的偏移的灵活性,并检验了动态规划原理的存在条件。从算法的角度来看,动态规划原理的存在具有重要意义,因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。