一种用于稳定和高效强化学习的通用代理函数类

Aug, 2021

一种用于稳定和高效强化学习的通用代理函数类

A functional mirror ascent view of policy gradient methods with function approximation

Sharan Vaswani, Olivier Bachem, Simone Totaro, Robert Mueller, Matthieu Geist...

TL;DR提出一种基于FMA-PG的泛用框架来构造policy gradient方法的代理函数，并保证了策略改进的性质，从而使得该框架下的算法不受策略参数化的影响，并且能够实现一些实现技术的改进。在简单的赌徒问题上，我们对FMA-PG实例化出来的算法进行了实验，并发现这种框架也能够提出比PPO更加高效的算法。

Abstract

We use functional mirror ascent to propose a general framework (referred to as FMA-PG) for designing policy gradient methods. The functional perspective distinguishes between a policy's functional representation

发现论文，激发创造

面向策略梯度方法的策略感知模型学习

本文研究了模型基强化学习中模型的学习，提出了基于 Policy-Aware Model Learning (PAML) 的带权损失函数来学习模型，结果证明该方法在某些基准问题上表现良好。

Feb, 2020

PC-PG: 基于策略覆盖指导探索的可证明策略梯度学习

介绍了Policy Cover-Policy Gradient(PC-PG)算法, 其通过学习的策略集(策略保证)来平衡探索和开发的权衡,同时具有强大的模型误差优化保证

Jul, 2020

针对强化学习的政策镜面下降算法：线性收敛、新采样复杂度和广义问题类

本文提出了新的政策镜反射（PMD）方法，用于解决具有强凸性或一般凸性正则化的强化学习（RL）问题，并使用不同的采样方案建立了这些问题的随机对应物。我们证明了PMD方法在快速收敛到全局最优解方面的线性速率，提出了计算这些正则化梯度的复杂度，并展示了此正则化的应用性。

Jan, 2021

带正则化的政策镜像下降算法：具有线性收敛的广义框架

提出了一种广义的策略镜像下降算法 (GPMD) 以解决正则化强化学习问题，具有线性收敛特性，支持一般类别的凸正则化器，并在数值实验中得到验证。

May, 2021

镜像学习: 策略优化的统一框架

本研究提出了一种名为Mirror Learning的新理论框架，为包括TRPO和PPO在内的大类算法提供理论保证，这说明现代深度强化学习算法的实际表现是其理论特性的直接结果，而不是先前提到的近似类比，从而使我们自由地探索新颖的、理论上可行的RL算法，这是一个迄今未开发的奇妙世界。

Jan, 2022

同伦策略镜像下降：策略收敛，隐含正规化和改进样本复杂度

提出了一种新的策略梯度方法——同伦策略镜像下降(HPMD)，用于解决具有有限状态和动作空间的折扣、无限时间MDPs，并具有多种计算性质。该方法在全局和局部上均具有收敛性，并且能够在一定条件下证明和表征极限策略。同时，使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略，在不同Bregman散度之间进行扩展，以及是一些常见Bregman散度的有限时间精确收敛。

Jan, 2022

一种参数化的策略优化近似梯度更新类

研究了策略优化的不同方法，利用统一的视角，将其转化为梯度形式和比例函数的更新，在保证高度结构化的同时，得到了一些新的更新算法，可以在合成域和深度强化学习基准测试中得到非平凡的改进。

Jun, 2022

f-策略梯度: 一种使用f-散度的目标条件化强化学习的通用框架

此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法，通过最小化智能体状态访问分布与目标之间的 f-分歧来实现稀疏奖励环境下的优化策略，同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励，在多个环境中展示了与标准策略梯度方法相比更好的性能。

Oct, 2023

MoMA: 基于模型的蜂道上升算法用于离线强化学习

利用模型为基础的镜像爬升算法 (MoMA) 在部分离线数据覆盖下，采用通用函数逼近能力，通过在策略评估步骤中的转移模型置信区间内的最小化过程来保守估计值函数，然后在策略改进步骤中使用通用函数逼近而不是常用的参数策略类，从而充分利用模型为基础方法中固有的无限制策略空间，并且通过对返回策略的次优性建立理论保证。

Jan, 2024

政策梯度方法的强多项式时间和验证分析

本研究解决了强化学习中缺乏最佳性原则度量的问题，通过发展一种简单可计算的间隙函数，提供了最佳性间隙的上下界。研究表明，基本的政策镜像下降法在确定性和随机性设置下表现出快速的无分布收敛，这一新结果有助于在强多项式时间内解决未正则化的马尔可夫决策过程，并在运行随机政策镜像下降时无需额外样本即可获得准确性估计。

Sep, 2024