通过复位深度集合代理实现高效且安全的深度强化学习
本文提出了一种新的训练和模型选择框架,用于模型无关的强化学习算法,使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习,选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本,且在 Atari 2600 和 Mujoco 中表现优异。
Jan, 2020
在强化学习中,代理人旨在最大化累积奖励,面临利用现有知识获取奖励或寻求潜在更高奖励的开发与探索困境。我们引入了一种创新方法,通过精心设计的先验 NNs,在强化学习的初始值函数中引入最大多样性,以解决常规集成型不确定性估计的问题。相比于随机先验方法,我们的方法在解决经典控制问题和一般性探索任务中表现出优越的性能,显著提高样本效率。
Oct, 2023
本文提出了一种名为集成模型预测安全认证的新算法,该算法结合了基于模型的深度强化学习和基于管道的模型预测控制,通过计划对学习代理所采取的行动进行修正,使安全约束违规最小化。我们的方法旨在通过仅需要由安全控制器生成的离线数据,尽量减少对实际系统的先验知识。我们的结果表明,与可比较的强化学习方法相比,我们可以实现显著减少的约束违规。
Feb, 2024
本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析,研究了数据高效 RL 的瓶颈,发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首,因此,在任何形式的监督学习中,利用任何形式的正则化技术,找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。
Apr, 2023
我们提出了一种集成方法,以提高在高度随机的日内加密货币组合交易环境中通过深度强化学习算法训练的交易策略的泛化性能。我们采用了一种模型选择方法,对多个验证期进行评估,并提出了一种新颖的混合分布策略,以有效地集成所选模型。我们提供了关于细粒度测试期间样本外表现的分布视图,以证明策略在不断变化的市场条件下的稳健性,并定期重新训练模型以应对金融数据的非平稳性。与深度强化学习策略和被动投资策略的基准相比,我们提出的集成方法改善了样本外表现。
Jul, 2023
通过使用深度神经网络同时学习模型和策略,我们分析了基于模型的增强学习方法的行为,并展示出学习到的策略倾向于利用模型学习不足的区域,导致训练不稳定。为了解决这个问题,我们提出使用模型集合来维护模型的不确定性并规范学习过程,并进一步展示,与 “Backpropagation through time” 相比,使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO,在具有挑战性的连续控制基准任务中,显著减少了比基于模型的深度 RL 方法所需的样本数量。
Feb, 2018
该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法,并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。
Feb, 2017