约束生成策略优化（CGPO）：混合离散连续 MDPs 的策略优化的非线性规划

Jan, 2024

约束生成策略优化（CGPO）：混合离散连续 MDPs 的策略优化的非线性规划

Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming for Policy Optimization in Mixed Discrete-Continuous MDPs

PDF

Michael Gimelfarb, Ayal Taitler, Scott Sanner

TL;DR提出了 Constraint-Generation Policy Optimization（CGPO）来优化混合离散 - 连续马氏决策过程（DC-MDPs）中紧凑且可解释的策略类的策略参数。CGPO 能够在许多具有表达性非线性动力学的 DC-MDPs 上提供无限范围内初始状态的有界策略误差保证，并在结束时可以证明导出最优策略。此外，CGPO 还能生成最坏情况下的状态轨迹来诊断策略缺陷，并提供最优操作的反事实解释。通过提出一个双层混合整数非线性优化框架，并将其简化为一个生成最坏情况下状态轨迹的最优约束生成方法，CGPO 实现了这些结果。此外，利用现代非线性优化器，CGPO 可以获得带有有界最优性差的解。我们通过显式边际化（如适用）或概率约束处理随机转换，提供高概率的策略性能保证。我们还提出了理解不同策略、奖励和转换动力学表达性类的计算复杂性的路线图。实验证明了 CGPO 在各种领域的适用性，包括库存控制、水库系统管理和物理控制等。总之，我们提供了一种解决方案，用于推导带有有界性能保证、紧凑且可解释的结构化策略，实现最坏情况的生成和反事实策略诊断。

Abstract

We propose constraint-generation policy optimization (CGPO) for optimizing policy parameters within compact and interpretable policy classes for mixed discrete-continuous →

constraint-generation policy optimization markov decision processes mixed discrete-continuous policy parameters compact and interpretable policies

发现论文，激发创造

基于投影的约束策略优化

本研究提出了一种新的算法，投影约束策略优化（PCPO），用于学习控制策略，以优化奖励函数并满足由安全、公平或其他成本考虑所产生的约束，结果表明与现有的方法相比，PCPO 在多个控制任务中的表现优异，约束违反率平均低至 3.5 倍左右，奖励水平约高 15% 左右。

Oct, 2020

面向有约束 MDPs 的无痛政策优化

研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题，提出了一种泛化的原始 - 对偶框架，用于评估算法表现，实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度，以及并非像其他方法一样需要超参数调整，并通过对合成和 Cartpole 环境的实验证明了其效力和稳健性。

Apr, 2022

带拓扑约束的多目标策略梯度

本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程（TMDPs）的策略梯度定理及其实现，进一步扩展了 TMDPs 在面对多种复杂问题方面的应用，提出了一种针对多目标导航问题的新算法，并在模拟环境和实际机器人上进行了演示。

Sep, 2022

基因蒸馏的政策优化

本文提出一种新的基因算法，名为遗传策略优化（GPO），用于样本有效的深度策略优化，通过状态空间中的模仿学习进行策略交叉并应用策略梯度方法进行变异，实验结果表明，GPO 优于现有的策略梯度方法，并实现了相当或更高的样本效率。

Nov, 2017

基于 Lyapunov 的连续控制安全策略优化

本研究利用 Lyapunov 方法，构建了基于约束的马尔可夫决策过程（CMDP）模型，并使用深度确定性策略梯度（DDPG）或近端策略优化（PPO）等标准策略梯度方法进行训练，通过将策略参数或动作投影到由状态相关线性化 Lyapunov 约束引起的可行解集合上，以实现策略的近似约束满足，并且实现了较少保守的策略更新，针对数个模拟（MuJoCo）任务以及实际室内机器人导航问题的评估表明了我们算法的有效性，同时具有较高的数据利用效率。

Jan, 2019

约束策略优化

提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法，可保证在每次迭代中实现约束满足，能够应用于高维控制问题，例如，在机器人运动中，智能体必须满足安全性约束条件。

May, 2017

线性规划方法求解约束部分可观测的马尔可夫决策过程

使用 LP 模型结合基于网格的近似方法生成近似策略，研究了解决限制观测 Markov 决策过程的效果。结果表明，LP 模型可有效地生成有限和无限时间段问题的近似策略，同时提供将各种附加约束集成到模型中的灵活性。

Jun, 2022

纯粹确定性策略优化

本文提出了一种政策梯度方法，避免引入探索性噪声并在确定性景观上执行政策搜索，使用 Wasserstein-based 二次模型进行确定性政策正则化，适用于机器人控制环境。

May, 2022

DGPO: 通过多样性指导的策略优化发现多种策略

本文提出了一种基于多样性导向的动态规划策略优化算法（DGPO），该算法使用多样性对象来指导一个隐式编码策略，从而在单一的训练过程中学习出多组不同的策略，并将受外部激励约束的优化问题作为概率推理任务来解决，并使用策略迭代来最大化所得的下界。实验结果表明，该方法在各种强化学习任务中有效地找到了多样化的策略，并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。

Jul, 2022

局部约束策略优化用于非平稳输入驱动环境的在线强化学习

该论文介绍了一种针对在线强化学习中遇到的忘记、变化等问题的新策略，利用本地约束策略优化（LCPO）来优化当前经验，基于旧经验进行策略衔接，有效地在用于实验室中的合成数据和来自真实电脑系统的数据中进行了验证，结果表明，它在在线设置下优于最先进的策略和离线策略学习方法，并且达到了预先训练整个输入跟踪的离线代理的水平。

Feb, 2023