带拓扑约束的多目标策略梯度

Sep, 2022

Multi-Objective Policy Gradients with Topological Constraints

Kyle Hollins Wray, Stas Tiomkin, Mykel J. Kochenderfer, Pieter Abbeel

TL;DR本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程（TMDPs）的策略梯度定理及其实现，进一步扩展了 TMDPs 在面对多种复杂问题方面的应用，提出了一种针对多目标导航问题的新算法，并在模拟环境和实际机器人上进行了演示。

Abstract

multi-objective optimization models that encode ordered sequential constraints provide a solution to model various challenging problems including encoding preferences, modeling a curriculum, and enforcing measures of safety. A recently developed theory of →

multi-objective optimization topological markov decision processes policy gradient theorem function approximators proximal policy optimization

发现论文，激发创造

基于 Lyapunov 的连续控制安全策略优化

本研究利用 Lyapunov 方法，构建了基于约束的马尔可夫决策过程（CMDP）模型，并使用深度确定性策略梯度（DDPG）或近端策略优化（PPO）等标准策略梯度方法进行训练，通过将策略参数或动作投影到由状态相关线性化 Lyapunov 约束引起的可行解集合上，以实现策略的近似约束满足，并且实现了较少保守的策略更新，针对数个模拟（MuJoCo）任务以及实际室内机器人导航问题的评估表明了我们算法的有效性，同时具有较高的数据利用效率。

Jan, 2019

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

约束马尔可夫决策过程的原始对偶方法

本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程，通过应用正则化策略迭代来改善策略，应用次梯度上升来保持约束。在弱耦合结构的情况下，通过嵌入式分解方法，能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度，并表明它产生优于现有启发式算法的控制。

Jan, 2021

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

具有连续 Pareto 前沿逼近的多目标强化学习 —— 补充材料

使用梯度信息和基于策略的方法在多目标 MDP 中学习连续的 Pareto 边界序列，通过跟踪单个梯度上升运行来生成解决方案。

Jun, 2014

纯粹确定性策略优化

本文提出了一种政策梯度方法，避免引入探索性噪声并在确定性景观上执行政策搜索，使用 Wasserstein-based 二次模型进行确定性政策正则化，适用于机器人控制环境。

May, 2022

多目标马尔可夫决策过程中的内在动机分层策略学习

通过采用内在动机驱动的强化学习方法来演化出一套通用的技能集，以解决多目标马尔科夫决策过程，从而克服了在非稳态环境中无法泛化的问题。实验证明，该方法在动态机器人环境中明显优于现有的多目标强化学习方法。

Aug, 2023

拓扑引导的带时序目标的连续系统演员 - 评论家模块化学习

本文研究了给定线性时间逻辑高级规范的连续状态随机动态系统的正式策略综合问题。通过在动态系统和翻译的自动机之间进行乘积来构造乘积系统，以学习最大化满足概率的最优策略，并在此过程中提出了一种泛化的优化备份顺序，进一步加速了学习过程，在拓扑顺序的情况下提出了一种演员 - 评论家强化学习算法。通过神经网络来近似值和策略函数，并在 Dubins 小车的运动规划上展示了该正式政策综合框架的实证效果。

Apr, 2023

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019