Jan, 2024

约束生成策略优化(CGPO):混合离散连续 MDPs 的策略优化的非线性规划

TL;DR提出了 Constraint-Generation Policy Optimization(CGPO)来优化混合离散 - 连续马氏决策过程(DC-MDPs)中紧凑且可解释的策略类的策略参数。CGPO 能够在许多具有表达性非线性动力学的 DC-MDPs 上提供无限范围内初始状态的有界策略误差保证,并在结束时可以证明导出最优策略。此外,CGPO 还能生成最坏情况下的状态轨迹来诊断策略缺陷,并提供最优操作的反事实解释。通过提出一个双层混合整数非线性优化框架,并将其简化为一个生成最坏情况下状态轨迹的最优约束生成方法,CGPO 实现了这些结果。此外,利用现代非线性优化器,CGPO 可以获得带有有界最优性差的解。我们通过显式边际化(如适用)或概率约束处理随机转换,提供高概率的策略性能保证。我们还提出了理解不同策略、奖励和转换动力学表达性类的计算复杂性的路线图。实验证明了 CGPO 在各种领域的适用性,包括库存控制、水库系统管理和物理控制等。总之,我们提供了一种解决方案,用于推导带有有界性能保证、紧凑且可解释的结构化策略,实现最坏情况的生成和反事实策略诊断。