保持多样轨迹：促进连续控制中集合策略的探索

Oct, 2023

保持多样轨迹：促进连续控制中集合策略的探索

Keep Various Trajectories: Promoting Exploration of Ensemble Policies in Continuous Control

Chao Li, Chen Gong, Qiang He, Xinwen Hou

TL;DR通过使用深度强化学习和集成方法，我们提出了一种新的集成强化学习算法 TEEN，在实验证明 TEEN 相对于仅使用子策略能够增加集成策略的样本多样性，并且在性能上表现更好，平均而言 TEEN 在经过测试的代表性环境中比基线集成强化学习算法的性能提高了 41%。

Abstract

The combination of deep reinforcement learning (DRL) with ensemble methods has been proved to be highly effective in addressing complex sequential decision-making problems. This success can be primarily attribute

deep reinforcement learning ensemble methods sample efficiency sub-policies ensemble rl algorithms

发现论文，激发创造

SEERL: 高效率样本集成强化学习

本文提出了一种新的训练和模型选择框架，用于模型无关的强化学习算法，使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习，选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本，且在 Atari 2600 和 Mujoco 中表现优异。

Jan, 2020

模型集成信任区域策略优化

通过使用深度神经网络同时学习模型和策略，我们分析了基于模型的增强学习方法的行为，并展示出学习到的策略倾向于利用模型学习不足的区域，导致训练不稳定。为了解决这个问题，我们提出使用模型集合来维护模型的不确定性并规范学习过程，并进一步展示，与 “Backpropagation through time” 相比，使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO，在具有挑战性的连续控制基准任务中，显著减少了比基于模型的深度 RL 方法所需的样本数量。

Feb, 2018

车辆轨迹控制的高效数据深度强化学习

采用数据高效的深度强化学习方法研究车辆轨迹控制，发现新的模型推理方法并将动力学预测和车辆定位分离，比传统方法更高效地学习控制策略。

Nov, 2023

DEFT: 快速转移强化学习的多样化集成

本文提出了基于 Deep Ensembles 的新方法 DEFT 来解决强化学习在高度多模态环境下的转移问题，在训练过程中加入一项鼓励策略之间不同的损失函数，产生多样性，最后将组件策略综合为新的适用于不同环境的策略。实验表明，该方法可以显著提高奖励并更快地收敛。

Sep, 2022

深度强化学习自适应路径约束的探索策略

提出了一种用于深度强化学习的高效适应性轨迹约束探索策略，利用不完整的离线演示作为参考，引入了一种新的基于策略梯度的优化算法，为单智能体和多智能体强化学习提供了一种自适应剪切轨迹距离奖励的方法。通过对两个大型二维网格世界迷宫和几个 MuJoCo 任务的实验验证，证明了该方法在实现时间延长的探索和避免短视和次优行为方面的显著优势。

Dec, 2023

走向应用强化学习：通过策略集提高泛化能力和样本利用率

本文介绍了一种名为 Ensemble Proximal Policy Optimization (EPPO) 的强化学习算法，它使用了集成学习方法和多元策略组合优化，采用策略空间多样性增强正则化，可以更好地解决在实际场景中的噪声、环境变化等问题，具有更高效、更鲁棒的性能。

May, 2022

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

单轨迹鲁棒分布式强化学习

提出了分布式鲁棒 Q 学习及其平均奖励变体，且在单轨迹训练的基础上，给出了渐近收敛保证和实验验证，证明其在扰动环境下的优越性。

Jan, 2023

使用软自我生成指导学习多样化策略

通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现有的强化学习方法相比，实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。

Feb, 2024