发现式策略优化

Oct, 2022

Discovered Policy Optimisation

Chris Lu, Jakub Grudzien Kuba, Alistair Letcher, Luke Metz, Christian Schroeder de Witt...

TL;DR本文通过元学习 Mirror Learning 结构并发现一个闭合形式的强化学习算法 DPO，通过在 Brax 环境下的实验验证，证明 LPO 和 DPO 算法在性能上处于最先进的位置，并具有在未知环境中的转移能力。

Abstract

Tremendous progress has been made in reinforcement learning (RL) over the past decade. Most of these advancements came through the continual development of new algorithms, which were designed using a combination of mathematical derivations, intuitions, and experimentation. Such an appr

reinforcement learning meta-learning policy optimization mirror learning discovered policy optimization

发现论文，激发创造

镜像学习：策略优化的统一框架

本研究提出了一种名为 Mirror Learning 的新理论框架，为包括 TRPO 和 PPO 在内的大类算法提供理论保证，这说明现代深度强化学习算法的实际表现是其理论特性的直接结果，而不是先前提到的近似类比，从而使我们自由地探索新颖的、理论上可行的 RL 算法，这是一个迄今未开发的奇妙世界。

Jan, 2022

发现强化学习算法

该论文提出一种新的元学习方法，可以通过与一组环境交互，发现一个包含价值函数和时间差分学习等元素的更新规则，从而得到一个名为 LPG 的 RL 算法，该方法可以发现自己对于价值函数的替代方案，并有效地推广到复杂的 Atari 游戏中。

Jul, 2020

基于元模型的元策略优化

本文通过将 Janner 等人 (2019) 提出的定理扩展，分析了基于模型的元强化学习方法的性能保证，并提出了具有性能保证的 Meta-Model-Based Meta-Policy Optimization (M3PO)，证明 M3PO 在连续控制基准测试中优于现有的元强化学习方法。

Jun, 2020

DPO: 差分强化学习及其在最优配置搜索中的应用

提出了第一个可以处理拥有有限训练样本和较短长度回合的差分强化学习框架，命名为差分策略优化（DPO）。DPO 是一种点对点和阶段对阶段迭代方法，通过本地运动算子编码的策略进行优化，具有可扩展性，且在基准实验中与几种流行的强化学习方法相比展现出有竞争力的结果。

Apr, 2024

反思式策略优化

该论文介绍了一种新的基于策略的扩展方法 —— 反思性策略优化（RPO），它将过去和未来的状态 - 动作信息结合起来以进行策略优化，从而使智能体能够自我审视并在当前状态下修改其动作。理论分析证实了政策绩效的递增和解集空间的收缩，从而加快了收敛过程。经验证据表明，在两个强化学习基准测试中，RPO 在样本效率方面表现出了显著的优势。

Jun, 2024

基于模型的强化学习：元策略优化

提出了一种基于元策略优化的强化学习方法，使用多个学习的动态模型集合来适应真实世界的动态，提高数据利用率和鲁棒性，达到和基于经验的方法一样的渐近性能。

Sep, 2018

乐观的近端策略优化

本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Jun, 2019

基于模型的离线元强化学习与正则化

该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO，使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡，对元强化学习算法进行了改进，并在实验中取得了优异的表现。

Feb, 2022

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

引导式元策略搜索

本文提出了一种基于联邦学习的强化学习策略的元学习算法，在不需要大量策略经验数据的情况下，能够加速学习新任务，该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性，并且可应用于视觉观测领域。

Apr, 2019