通过复位深度集合代理实现高效且安全的深度强化学习

Oct, 2023

通过复位深度集合代理实现高效且安全的深度强化学习

Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep Ensemble Agents

Woojun Kim, Yongjae Shin, Jongeui Park, Youngchul Sung

TL;DR通过在重置方法中引入深度集成学习，我们提出了一种新的以增强样本利用效率为目标并解决基准重置方法局限性的方法。数值结果表明，该方法在高样本利用效率和安全性方面具有明显效果。

Abstract

deep reinforcement learning (RL) has achieved remarkable success in solving complex tasks through its integration with deep neural networks (DNNs) as function approximators. However, the reliance on DNNs has introduced a new challenge called →

deep reinforcement learning primacy bias reset method deep ensemble learning sample efficiency

发现论文，激发创造

SEERL: 高效率样本集成强化学习

本文提出了一种新的训练和模型选择框架，用于模型无关的强化学习算法，使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习，选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本，且在 Atari 2600 和 Mujoco 中表现优异。

Jan, 2020

无痕迹：学会重置以实现安全和自主的强化学习

本文提出了一种可以同时学习前向策略和清除策略的自动化安全有效的强化学习方法，可以显著减少手动重置，减少不安全的动作，并能自动诱导课程。

Nov, 2017

深度强化学习中的优先偏差

本文研究了深度强化学习算法中的优先性偏差问题，提出了一种简单且通用的机制来解决这个问题，并将其应用于离散和连续动作领域的算法中，从而显著提高了它们的性能。

May, 2022

深度强化学习的多元先验

在强化学习中，代理人旨在最大化累积奖励，面临利用现有知识获取奖励或寻求潜在更高奖励的开发与探索困境。我们引入了一种创新方法，通过精心设计的先验 NNs，在强化学习的初始值函数中引入最大多样性，以解决常规集成型不确定性估计的问题。相比于随机先验方法，我们的方法在解决经典控制问题和一般性探索任务中表现出优越的性能，显著提高样本效率。

Oct, 2023

强化学习与集成模型预测安全认证

本文提出了一种名为集成模型预测安全认证的新算法，该算法结合了基于模型的深度强化学习和基于管道的模型预测控制，通过计划对学习代理所采取的行动进行修正，使安全约束违规最小化。我们的方法旨在通过仅需要由安全控制器生成的离线数据，尽量减少对实际系统的先验知识。我们的结果表明，与可比较的强化学习方法相比，我们可以实现显著减少的约束违规。

Feb, 2024

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023

模型为基础的强化学习中的优先倾向

针对模型驱动的强化学习中的原生偏见问题，提出了一种名为 “世界模型重置” 的方法，并在多个连续控制任务和离散控制任务中验证了该方法的有效性。

Oct, 2023

基于深度强化学习的加密货币自动交易集成方法

我们提出了一种集成方法，以提高在高度随机的日内加密货币组合交易环境中通过深度强化学习算法训练的交易策略的泛化性能。我们采用了一种模型选择方法，对多个验证期进行评估，并提出了一种新颖的混合分布策略，以有效地集成所选模型。我们提供了关于细粒度测试期间样本外表现的分布视图，以证明策略在不断变化的市场条件下的稳健性，并定期重新训练模型以应对金融数据的非平稳性。与深度强化学习策略和被动投资策略的基准相比，我们提出的集成方法改善了样本外表现。

Jul, 2023

模型集成信任区域策略优化

通过使用深度神经网络同时学习模型和策略，我们分析了基于模型的增强学习方法的行为，并展示出学习到的策略倾向于利用模型学习不足的区域，导致训练不稳定。为了解决这个问题，我们提出使用模型集合来维护模型的不确定性并规范学习过程，并进一步展示，与 “Backpropagation through time” 相比，使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO，在具有挑战性的连续控制基准任务中，显著减少了比基于模型的深度 RL 方法所需的样本数量。

Feb, 2018

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017