通过两阶段KL惩罚实现保证的信任区域优化

Dec, 2023

通过两阶段KL惩罚实现保证的信任区域优化

Guaranteed Trust Region Optimization via Two-Phase KL Penalization

K. R. Zentner, Ujjwal Puri, Zhehui Huang, Gaurav S. Sukhatme

TL;DR应用KL惩罚本身几乎足以强制执行信任区域，在实践中通过少于5%的额外梯度步骤引入"修复"阶段足以保证在每个策略更新时执行信任区域，产生与其他信任区域方法相竞争的结果。

Abstract

on-policy reinforcement learning (RL) has become a popular framework for solving sequential decision problems due to its computational efficiency and theoretical simplicity. Some on-policy methods guarantee every policy update is constrained to a →

发现论文，激发创造

信任域策略优化

本文提出了一种名为TRPO的实用算法，通过优化政策来达到保证单调改善的目的，并通过一系列实验展示了其在学习模拟机器人的Swimming、Hopping以及Walking，并使用屏幕图像玩Atari游戏等众多方面的优越表现。

Feb, 2015

Trust-PCL: 一种用于连续控制的离线信任区域方法

提出一种基于离线数据的信任区域方法Trust-PCL，能够在强化学习中稳定策略优化算法，使用相对熵正则化器优化最大回报目标的最优策略和状态值满足一组多步路径一致性，提高了样本效率和解决方案质量。

Jul, 2017

真正靠近策略优化

本文介绍了一种名为Truly PPO的增强PPO方法，针对PPO在优化行为方面存在的问题进行了改进，通过使用新的剪辑函数来支持回滚行为，使用基于可信区域的触发条件替换剪辑的触发条件，从而提供了保证的拟态策略性能单调改进，从而改善了PPO在样本效率和性能方面的表现。

Mar, 2019

自适应信任域策略优化：正则化MDPs的全局收敛和更快速率

本文考虑在强化学习中使用的一种流行算法Trust region policy optimization（TRPO）与传统的凸分析中自然的信任域方法之间的关系，证明了TRPO的适应性调节机制实际上是传统信任域方法的RL版本，并在规则化MDP中，展示了快速收敛速率的结果，这是关于规则化即时成本或奖励时在RL中的首个更好的结果。

Sep, 2019

可微分信任域层用于深度强化学习

本文提出了可微分的神经网络层来通过闭合形式的投影来执行深度高斯策略的信任区域，为Gaussian分布导出了基于KL散度、Wasserstein L2距离和Frobenius范数的信任区域投影。实验证明，这些投影层可以实现类似或更好的结果，而且几乎对于具体的实现选择是不敏感的。

Jan, 2021

多智能体强化学习中的信任区域策略优化

本文介绍了针对到多智能体强化学习(MARL)的信任区域方法, 并展示了 Heterogeneous-Agent Trust Region Policy Optimisation 和 Heterogeneous-Agent Proximal Policy Optimisation算法的成功应用。

Sep, 2021

针对随机策略的无信赖区域策略优化

本文提出了一个名为TREFree的算法，该算法采用广义代理目标来替代策略上的可信区间约束并在实践中通过保守优化广义目标来有效实施，从而获得更好的策略绩效和样本效率。

Feb, 2023

基于度量感知的信赖域算法保证收敛的策略优化

本文探讨基于KL散度的信任域方法在强化学习中的应用，进而提出基于Wasserstein和Sinkhorn两种新的信任域方法用于策略优化，并在多个任务中进行了实验验证。

Jun, 2023

离线强化学习的支持信任域优化

在离线强化学习中，基于行为策略的支持约束的支持下的支持信任区域优化（STR）保证了严格的策略改进，并在包括近似误差和采样误差的情况下保证步骤的安全策略改进，其理论和实证结果验证了其在MuJoCo运动领域和具有更具挑战性的AntMaze领域的卓越性能。

Nov, 2023

将安全性嵌入强化学习：信任区域方法的新视角

本研究解决了强化学习中存在的不安全行为问题，提出了一种新的方法——受限信任区域策略优化（C-TRPO），通过根据安全约束调整策略空间的几何结构，确保训练过程中的约束满足。实验结果表明，C-TRPO在显著减少约束违规的同时，与最先进的受限马尔可夫决策过程算法相比，在奖励最大化方面具备竞争力。

Nov, 2024