确定性策略梯度算法的安全稳健体验共享
提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励,此方案交替更新两种策略:代理策略和回放策略,其中代理策略基于回放数据最大化累积奖励,而回放策略则提供代理经验最有用的经验,实验表明,此方案可以改进离线策略强化学习算法的性能。
Jun, 2019
本文提出并调研了一种带有均匀大规模经验回放机制的演员 - 评论家增强学习算法,提供了解决两个挑战的方案:(a)利用经验回放的高效演员评论家学习(b)离线策略学习的稳定性。通过分析重要性权重采样中的偏差 - 方差权衡,提出了混合经验回放采样和在线策略采样的新的信任区间方案,旨在处理 V-trace 不稳定的数据分布,为超参数扫描提供了快速有效的解决方案,并在 Atari 游戏中证明了该设置的数据效率的优势。
Sep, 2019
通过选择唯一的样本并将其添加到重放缓冲区,以减小缓冲区大小并保持样本的独立和等分布性的目标,本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集,将状态空间划分为一组抽象状态,并通过使用核密度估计量选择具有唯一状态 - 奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员 - 评论家算法比纯粹的离策略演员 - 评论家算法收敛更快。此外,我们通过与 Gym 环境中的两种最先进的演员 - 评论家强化学习算法进行比较来评估我们的方法。实验结果表明,与基准算法相比,我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小,同时实现更快的收敛或更好的奖励积累。
Feb, 2024
本文介绍了一种在物理系统(如数据中心冷却单元或机器人)中部署强化学习代理的方法,通过添加一层安全层,能够避免在学习过程中违反约束条件,并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。
Jan, 2018
该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法,并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。
Feb, 2017
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
本文介绍了在深度强化学习模型中添加安全层以确保多智能体控制问题的安全性的方法,该方法采用线性化单步转换动态的思想,并使用软约束解决了实施步骤中的不可行性问题,在保证软约束的约束满足性的基础上实现了学习过程中的安全控制。
Aug, 2021
本文介绍了一个具有经验重放的 Actor-critic 深度强化学习算法,通过引入截断重要性采样、随机 Dueling 网络结构以及一种新的信任区域策略优化方法,稳定、高效地在包括离散的 57 种 Atari 游戏环境和多种连续控制问题中表现出色。
Nov, 2016
RECALL 是一种重播增强方法,通过自适应规范化和旧任务的策略蒸馏,在新任务上增强普适性和稳定性,从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中,RECALL 的性能明显优于纯粹的完美记忆重播,与最先进的持续学习方法相比,整体性能相当甚至更好。
Nov, 2023