DEFT: 快速转移强化学习的多样化集成

Sep, 2022

DEFT: 快速转移强化学习的多样化集成

DEFT: Diverse Ensembles for Fast Transfer in Reinforcement Learning

Simeon Adebola, Satvik Sharma, Kaushik Shivakumar

TL;DR本文提出了基于 Deep Ensembles 的新方法 DEFT 来解决强化学习在高度多模态环境下的转移问题，在训练过程中加入一项鼓励策略之间不同的损失函数，产生多样性，最后将组件策略综合为新的适用于不同环境的策略。实验表明，该方法可以显著提高奖励并更快地收敛。

Abstract

deep ensembles have been shown to extend the positive effect seen in typical ensemble learning to neural networks and to reinforcement learning (RL). However, there is still much to be done to improve the efficie

deep ensembles reinforcement learning multimodal environments ensemble-based method policy optimization

发现论文，激发创造

保持多样轨迹：促进连续控制中集合策略的探索

通过使用深度强化学习和集成方法，我们提出了一种新的集成强化学习算法 TEEN，在实验证明 TEEN 相对于仅使用子策略能够增加集成策略的样本多样性，并且在性能上表现更好，平均而言 TEEN 在经过测试的代表性环境中比基线集成强化学习算法的性能提高了 41%。

Oct, 2023

SEERL: 高效率样本集成强化学习

本文提出了一种新的训练和模型选择框架，用于模型无关的强化学习算法，使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习，选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本，且在 Atari 2600 和 Mujoco 中表现优异。

Jan, 2020

一种可传递、自动调整的深度强化学习方法，用于成本效益高的网络钓鱼检测

本文研究了使用增强学习来动态选择并加权选择多个学习模型的效果，在此基础上提出了优化和校准方法，并将其应用于安全策略的迁移，结果显示该方法具有高度的鲁棒性。

Sep, 2022

多样性投影集合的分布式强化学习

本研究探讨了如何通过集合及多样性实现可靠的不确定性估计和深度探索，即通过几个不同的分布投影和表现形式的集合所组成的 “分布整体学习”（distributional ensemble）来实现优秀的性能。

Jun, 2023

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

模型集成信任区域策略优化

通过使用深度神经网络同时学习模型和策略，我们分析了基于模型的增强学习方法的行为，并展示出学习到的策略倾向于利用模型学习不足的区域，导致训练不稳定。为了解决这个问题，我们提出使用模型集合来维护模型的不确定性并规范学习过程，并进一步展示，与 “Backpropagation through time” 相比，使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO，在具有挑战性的连续控制基准任务中，显著减少了比基于模型的深度 RL 方法所需的样本数量。

Feb, 2018

通过复位深度集合代理实现高效且安全的深度强化学习

通过在重置方法中引入深度集成学习，我们提出了一种新的以增强样本利用效率为目标并解决基准重置方法局限性的方法。数值结果表明，该方法在高样本利用效率和安全性方面具有明显效果。

Oct, 2023

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

UPDeT：基于 Transformer 的策略解耦通用多智能体强化学习

本文提出了一种称为 Universal Policy Decoupling Transformer (UPDeT) 的 transformer-based 模型，可插入任何多智能体强化学习管道并具备强大的泛化能力，证明了相对于现有方法具有优异的迁移能力，在大规模 SMAC 多智能体竞争游戏中取得了显著的表现和训练速度（快 10 倍）。

Jan, 2021

自适应策略转移的高效深度强化学习

本研究提出了一种名为 “Policy Transfer Framework” 的框架，该框架采用多策略转移方式对强化学习中的目标策略进行直接优化，可以很方便地与现有的深度强化学习方法相结合，实验结果表明，该框架明显加速了学习过程，并在离散和连续动作空间中超越了现有的策略转移方法，具有较高的学习效率和最终性能。

Feb, 2020