MEPG：深度强化学习的极简集成策略梯度框架

Sep, 2021

MEPG：深度强化学习的极简集成策略梯度框架

MEPG: A Minimalist Ensemble Policy Gradient Framework for Deep Reinforcement Learning

Qiang He, Huangyuan Su, Chen Gong, Xinwen Hou

TL;DR本文提出了一种新的深度强化学习框架 MEPG，它利用修改的 dropout 操作符将多个模型集成成单一模型来解决集成学习中的资源消耗问题，MEPG 通过保持 Bellman 方程两侧的 dropout 一致性来保持集成属性，实验结果表明 MEPG 方法在 gym 仿真器上的表现优于最先进的集成方法和无模型方法，且不会增加额外的计算资源成本。

Abstract

During the training of a reinforcement learning (RL) agent, the distribution of training data is non-stationary as the agent's behavior changes over time. Therefore, there is a risk that the agent is overspecialized to a particular distribution and its performance suffers in the larger

reinforcement learning ensemble policy gradient mepg bellman update

发现论文，激发创造

模型集成信任区域策略优化

通过使用深度神经网络同时学习模型和策略，我们分析了基于模型的增强学习方法的行为，并展示出学习到的策略倾向于利用模型学习不足的区域，导致训练不稳定。为了解决这个问题，我们提出使用模型集合来维护模型的不确定性并规范学习过程，并进一步展示，与 “Backpropagation through time” 相比，使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO，在具有挑战性的连续控制基准任务中，显著减少了比基于模型的深度 RL 方法所需的样本数量。

Feb, 2018

进化策略梯度

该研究提出了一种元学习方法，用于学习基于梯度的加强学习算法，即演化可微损失函数，以便代理可以最小化该损失来优化其策略并获得高回报。经实证结果表明，与现成的策略梯度方法相比，所提出的演化策略梯度算法（EPG）在几个随机环境上实现了更快的学习，且其学习的损失可以推广到测试时间外的任务，并呈现出与其他流行的元学习算法截然不同的行为。

Feb, 2018

熵正则化强化学习的套娃政策梯度：收敛和全局最优性

本研究介绍并研究了一种名为 Matryoshka Policy Gradient（MPG）的新型策略梯度算法，可在最大熵强化学习环境下学习相互关联的有限任务，证明了其收敛性和全局最优性，适用于神经网络参数化的策略优化，以及在标准测试基准上的数值评估。

Mar, 2023

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

走向应用强化学习：通过策略集提高泛化能力和样本利用率

本文介绍了一种名为 Ensemble Proximal Policy Optimization (EPPO) 的强化学习算法，它使用了集成学习方法和多元策略组合优化，采用策略空间多样性增强正则化，可以更好地解决在实际场景中的噪声、环境变化等问题，具有更高效、更鲁棒的性能。

May, 2022

预期策略梯度

论文提出了一种集成了随机策略梯度和确定性策略梯度的预期策略梯度，通过对动作的积分来估算梯度，证明了其可以降低梯度估算的方差，对于高斯探索，通过设置动作的海森矩阵的指数作为协方差比标准探索更优，在四个 MuJoCo 域中明显优于使用奥恩斯坦 - 乌伦贝克启发式的确定性策略梯度.

Jun, 2017

高效深度强化学习的概率混合专家模型

本研究提出了一种基于高斯混合模型的概率混合专家策略，以及一种新的用于解决策略不可区分性问题的梯度估计器，成功应用于通用离线策略和在线策略深度强化学习算法，实验结果表明该方法在包括探索在内的多个方面优于单模态策略、其他混合专家策略和选项框架方法，学习出的元素能够区分，具有更好的学习效率和性能。

Apr, 2021

基于模型集合的效率高的强化学习算法：探索与利用

本文提出了模型集成的方法 MEEE，其中含有一些特殊的探索和利用策略，解决了现有方法中存在的问题，包括计划探索、评估学习模型的不确定性以及更加合理利用学习模型等。在多项持续控制基准测试中，该方法表现优于其他无模型和有模型的现有方法，尤其在样本复杂度方面表现更加卓越。

Jul, 2021

SEERL: 高效率样本集成强化学习

本文提出了一种新的训练和模型选择框架，用于模型无关的强化学习算法，使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习，选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本，且在 Atari 2600 和 Mujoco 中表现优异。

Jan, 2020

相位策略梯度

Phasic Policy Gradient (PPG) 是一种强化学习框架，通过将策略和价值函数训练分成两个不同的阶段来修改传统的在线策略演员 - 评论家方法，从而在保持各自优点的同时提高样本利用效率。

Sep, 2020