SEERL: 高效率样本集成强化学习

Jan, 2020

SEERL: Sample Efficient Ensemble Reinforcement Learning

Rohan Saphal, Balaraman Ravindran, Dheevatsa Mudigere, Sasikanth Avancha, Bharat Kaul

TL;DR本文提出了一种新的训练和模型选择框架，用于模型无关的强化学习算法，使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习，选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本，且在 Atari 2600 和 Mujoco 中表现优异。

Abstract

ensemble learning is a very prevalent method employed in machine learning. The relative success of ensemble methods is attributed to their ability to tackle a wide range of instances and complex problems that require different low-level approaches. However, ensemble methods are relativ

ensemble learning reinforcement learning model-free algorithms policy selection sample efficiency

发现论文，激发创造

集成强化学习：一项调查

本文介绍了近期一种重要的处理复杂任务的方法 —— 集成强化学习，它结合了强化学习和集成学习来充分探索问题空间，具有强的推广特性。本文综述了集成强化学习的研究现状和进展，分析了其成功应用的策略，并提出了一些未来的研究方向和应用。

Mar, 2023

模型集成信任区域策略优化

通过使用深度神经网络同时学习模型和策略，我们分析了基于模型的增强学习方法的行为，并展示出学习到的策略倾向于利用模型学习不足的区域，导致训练不稳定。为了解决这个问题，我们提出使用模型集合来维护模型的不确定性并规范学习过程，并进一步展示，与 “Backpropagation through time” 相比，使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO，在具有挑战性的连续控制基准任务中，显著减少了比基于模型的深度 RL 方法所需的样本数量。

Feb, 2018

保持多样轨迹：促进连续控制中集合策略的探索

通过使用深度强化学习和集成方法，我们提出了一种新的集成强化学习算法 TEEN，在实验证明 TEEN 相对于仅使用子策略能够增加集成策略的样本多样性，并且在性能上表现更好，平均而言 TEEN 在经过测试的代表性环境中比基线集成强化学习算法的性能提高了 41%。

Oct, 2023

走向应用强化学习：通过策略集提高泛化能力和样本利用率

本文介绍了一种名为 Ensemble Proximal Policy Optimization (EPPO) 的强化学习算法，它使用了集成学习方法和多元策略组合优化，采用策略空间多样性增强正则化，可以更好地解决在实际场景中的噪声、环境变化等问题，具有更高效、更鲁棒的性能。

May, 2022

线性复合模型集合在强化学习中的样本复杂度

本研究提出一种强化学习算法，使用一组预先训练的不准确模拟器的状态依赖线性组合来逼近真实环境，并且在未知参数数量的多项式样本复杂度下，无需状态空间或动作空间大小的限制下可获得近似最优策略，同时还讨论了模型选择时的困难情况并提供了一种经过证明的有效算法。

Oct, 2019

基于深度强化学习的加密货币自动交易集成方法

我们提出了一种集成方法，以提高在高度随机的日内加密货币组合交易环境中通过深度强化学习算法训练的交易策略的泛化性能。我们采用了一种模型选择方法，对多个验证期进行评估，并提出了一种新颖的混合分布策略，以有效地集成所选模型。我们提供了关于细粒度测试期间样本外表现的分布视图，以证明策略在不断变化的市场条件下的稳健性，并定期重新训练模型以应对金融数据的非平稳性。与深度强化学习策略和被动投资策略的基准相比，我们提出的集成方法改善了样本外表现。

Jul, 2023

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

通过多次重复采样，离线强化学习算法在连续控制中具有高样本效率

该论文提出了一种基于 SMR（样本多次重用）的强化学习方法，通过多次重复使用样本，可以在单次优化循环中更好地利用它们，从而显著提高了基本方法的样本效率。

May, 2023

基于模型集合的效率高的强化学习算法：探索与利用

本文提出了模型集成的方法 MEEE，其中含有一些特殊的探索和利用策略，解决了现有方法中存在的问题，包括计划探索、评估学习模型的不确定性以及更加合理利用学习模型等。在多项持续控制基准测试中，该方法表现优于其他无模型和有模型的现有方法，尤其在样本复杂度方面表现更加卓越。

Jul, 2021

具有随机集合值扩展的样本有效强化学习

提出了一种名为 “随机集合价值扩展（STEVE）” 的新型基于模型的技术，通过动态插值来消除模型中的错误，与以往的基于模型的方法不同，该方法在复杂环境下不会降低性能，并在具有挑战性的连续控制基准测试中提高了一个数量级的样本效率。

Jul, 2018