无需重要性采样的Actor-Critic方法的离线校正
本研究提出了一种在线的增量式actor-critic算法来应对现实生活中的多种问题,在采用off-policy学习和最新的gradient temporal-difference技术的同时,能够灵活地运用policy设计,具有较强的学习潜力和泛化性能,并能收敛至较好的算法性能。
May, 2012
本文系统地研究了深度强化学习中混合使用on-policy和off-policy更新方法,设计了一种基于控制变量方法的算法来有效结合两者,探讨了不同更新方法的优缺点和影响因素,并在多个开源深度控制测试中展示出了本算法的先进性。
Jun, 2017
本文提出一种基于最大熵强化学习框架的深度离策略演员-评论家算法,该算法通过离策略更新和稳定的随机演员-评论家公式结合,实现了在一系列连续控制基准任务上的最先进表现。
Jan, 2018
本文介绍了一种基于最大熵强化学习框架的离线演员-评论家算法 Soft Actor-Critic,其中演员旨在同时最大化期望回报和熵,以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进,如约束模型等,提高了模型的稳定性和训练速度,并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能,在样本效率和渐近性能方面优于以往的在线和离线算法。
Dec, 2018
提出了一个新的目标函数,counterfactual objective,用于解决连续强化学习中离线策略梯度算法中的问题,得到了广义离线策略梯度定理,并发展出了广义离线行动者-评论者算法(Geoff-PAC),通过模拟机器人实验表明其优于现有算法。
Mar, 2019
本文旨在解决深度强化学习领域中的模型选择问题,并提出一种基于Q函数作为决策函数的正无标记(PU)分类问题的度量方法来评估离线策略评估的性能,该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程,并且在一些任务上表现优于基线算法。
Jun, 2019
本文探讨了离线强化学习领域中的一个策略改进方法,使用 on-policy Q 估计的行为策略,通过一步有限制/正则化的策略改进,能在 D4RL 基准测试中表现优于迭代算法。我们认为,迭代算法的性能较差是由于进行 off-policy 评估所固有的高方差以及相对较差的行为策略等原因所导致的。
Jun, 2021
稳定离线策略Q学习的新方法,通过重新加权离线样本和限制策略以防止发散和减少价值逼近错误,能在标准基准测试中竞争性地表现,并在数据收集策略明显次优的任务中胜过竞争方法。
Nov, 2023
混合符号奖励环境中,重新考虑原有策略更新方法的安全性,通过解决数值估计误差的问题和不显式地最大化Q值的方法,提出了新的离策略演员-评论家方法,以提高深度强化学习算法在连续动作空间中的学习效果。
Nov, 2023
通过选择唯一的样本并将其添加到重放缓冲区,以减小缓冲区大小并保持样本的独立和等分布性的目标,本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集,将状态空间划分为一组抽象状态,并通过使用核密度估计量选择具有唯一状态-奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员-评论家算法比纯粹的离策略演员-评论家算法收敛更快。此外,我们通过与Gym环境中的两种最先进的演员-评论家强化学习算法进行比较来评估我们的方法。实验结果表明,与基准算法相比,我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小,同时实现更快的收敛或更好的奖励积累。
Feb, 2024