Q-Prop: 基于离线策略评估器的高效采样策略梯度
本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义,它允许深度 Q 网络(DQN)学习控制优化超参数。我们使用经验重放的 Q 学习,训练两个 DQN 接受目标函数状态表示作为输入,并输出与学习率调整或保持不变的动作相关的预期折扣回报,即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q-梯度下降算法的基础。与传统的优化方法不同,Q-梯度下降可以结合任何目标统计量,通过变化动作,我们可以深入了解成功的神经网络优化的学习率调整策略。
Feb, 2016
本文提出了一种新技术,将策略梯度与Q-learning相结合,通过回放缓冲提取On-policy数据,从策略的动作偏好中估计Q值,并应用Q-learning更新。实验结果表明,这种PGQL技术在全套Atari游戏中的性能超过了异步优势actor-critic(A3C)和Q-learning,能够提高数据效率和稳定性。
Nov, 2016
本文系统地研究了深度强化学习中混合使用on-policy和off-policy更新方法,设计了一种基于控制变量方法的算法来有效结合两者,探讨了不同更新方法的优缺点和影响因素,并在多个开源深度控制测试中展示出了本算法的先进性。
Jun, 2017
本文提出一种基于最大熵强化学习框架的深度离策略演员-评论家算法,该算法通过离策略更新和稳定的随机演员-评论家公式结合,实现了在一系列连续控制基准任务上的最先进表现。
Jan, 2018
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
本文研究了基于离线数据的深度强化学习算法,提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力,并且证明了该方法可以实现安全的离线学习。实验证明,该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。
Aug, 2022
透过引入自适应的离策略采样方法,本文提出了一种能够改进策略梯度算法数据效率的采样方法 PROPS 去减少采样误差并通过调整旧策略的数据分布使其接近策略梯度算法的数据要求,实验证明此方法能够减少采样误差并提高策略梯度算法的数据效率。
Nov, 2023
稳定离线策略Q学习的新方法,通过重新加权离线样本和限制策略以防止发散和减少价值逼近错误,能在标准基准测试中竞争性地表现,并在数据收集策略明显次优的任务中胜过竞争方法。
Nov, 2023
通过选择唯一的样本并将其添加到重放缓冲区,以减小缓冲区大小并保持样本的独立和等分布性的目标,本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集,将状态空间划分为一组抽象状态,并通过使用核密度估计量选择具有唯一状态-奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员-评论家算法比纯粹的离策略演员-评论家算法收敛更快。此外,我们通过与Gym环境中的两种最先进的演员-评论家强化学习算法进行比较来评估我们的方法。实验结果表明,与基准算法相比,我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小,同时实现更快的收敛或更好的奖励积累。
Feb, 2024
本文介绍了创新的强化学习方法,重点是解决和利用演员-评论家方法中连续控制任务中的估计偏差,使用深度双Q学习。我们提出了两种新算法:期望延迟深度确定性策略梯度(ExpD3)和偏差利用-双延迟深度确定性策略梯度(BE-TD3)。ExpD3旨在通过单个$Q$估计值减少过高估计的偏差,从而在计算效率和性能之间取得平衡,而BE-TD3则旨在在训练过程中动态选择最有利的估计偏差。我们在各种连续控制任务上进行了广泛的实验,证明了我们方法的有效性。我们证明这些算法可以在估计偏差显著影响学习的环境中与现有方法(如TD3)相匹配甚至超越。实验结果强调了利用偏差改进强化学习中的策略学习的重要性。
Feb, 2024