基于因式策略的终身策略梯度学习：快速训练且不会遗忘

Jul, 2020

基于因式策略的终身策略梯度学习：快速训练且不会遗忘

Lifelong Policy Gradient Learning of Factored Policies for Faster Training Without Forgetting

Jorge A. Mendez, Boyu Wang, Eric Eaton

TL;DR本研究提供了一种新的、基于生命全程政策梯度学习的策略训练方法，该方法可以直接训练终身函数逼近器，以便智能体在整个训练过程中从累积的知识中受益。本文表明，与单任务和学终身学习基线相比，我们的算法学习更快，收敛到更好的策略，并且在多种挑战性领域完全避免了灾难性遗忘。

Abstract

policy gradient methods have shown success in learning control policies for high-dimensional dynamical systems. Their biggest downside is the amount of exploration they require before yielding high-performing policies. In a →

policy gradient methods lifelong learning function approximators accumulated knowledge catastrophic forgetting

发现论文，激发创造

具有次线性遗憾的终身强化学习安全策略搜索

开发一种在对抗环境下实施多任务在线学习、可以执行安全约束的终身策略梯度学习算法，通过在基准动态系统和四旋翼控制应用中验证，实现了终身策略搜寻的次线性遗憾。

May, 2015

适应性策略学习用于附加任务

本文提出一种名为 APG 的方法，结合 Bellman 最优原理和策略梯度方法，优化预训练策略以适应额外任务并保证收敛速率和样本复杂度，同时在多个数值模拟中表现良好。

May, 2023

使用广义优势估计进行高维连续控制

本文探讨了如何使用深度神经网络和政策梯度方法，通过数值函数和置信区间优化解决了强化学习中大量样本和非稳定性问题，取得了在高难度 3D 运动任务中显著的实证结果。

Jun, 2015

应对生涯强化学习中非稳态性的反应性探索

该论文探讨了在终身学习的情境下如何跟踪和适应持续的领域转变，为此提出了反应式探索方法，并基于实验证明，策略梯度方法是适合于终身学习的一种学习方法，能更快地适应分布变化。

Jul, 2022

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

使用广义策略更新构建迁移的良好行为基础

本文提出了一种简单有效的算法，通过构建独立的策略集合，可以在不需要大量数据的情况下，在各种复杂的强化学习任务中实现高水平的性能表现，同时解决了基于线性特征函数的多个任务的奖励子问题，并应用于终身强化学习设置中。

Dec, 2021

通用策略网络的快速基于模型的策略搜索

通过在仿真环境中使用基于高斯过程的先验知识，结合基于贝叶斯优化的策略搜索方法，提高在连续和离散控制环境中智能体行为的适应性，实验表明相比其他竞争基准，该方法的效果更好。

Feb, 2022

持续增强学习的策略融合

提出了一种针对深度强化学习中灾难性遗忘问题的方法，名为 “策略整合” 模型，能够在不同时间尺度上改进学习效果，适应环境变化并通过历史经验规范化当前策略，从而提高连续学习的效果，在单任务、交替双任务和多智能体竞争自我对抗环境下均表现出了比基线优异的学习效果。

Feb, 2019

无模型模仿学习与策略优化

在模仿学习中，我们使用基于样本的方法开发了一种基于策略梯度的算法，即通过学习专家的样本轨迹，找到至少与专家策略一样好的参数化随机策略；该算法可以应用于高维度环境，并保证收敛到局部最小值。

May, 2016

进化策略梯度

该研究提出了一种元学习方法，用于学习基于梯度的加强学习算法，即演化可微损失函数，以便代理可以最小化该损失来优化其策略并获得高回报。经实证结果表明，与现成的策略梯度方法相比，所提出的演化策略梯度算法（EPG）在几个随机环境上实现了更快的学习，且其学习的损失可以推广到测试时间外的任务，并呈现出与其他流行的元学习算法截然不同的行为。

Feb, 2018