通用离线演员-评论家
本研究提出了一种在线的增量式actor-critic算法来应对现实生活中的多种问题,在采用off-policy学习和最新的gradient temporal-difference技术的同时,能够灵活地运用policy设计,具有较强的学习潜力和泛化性能,并能收敛至较好的算法性能。
May, 2012
本文提出一种基于最大熵强化学习框架的深度离策略演员-评论家算法,该算法通过离策略更新和稳定的随机演员-评论家公式结合,实现了在一系列连续控制基准任务上的最先进表现。
Jan, 2018
我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法,保证在离线学习下收敛,解决了动作表示问题带来的高维“诅咒”问题,这些算法是基于基于平均状态值函数目标的渐变高演员-评论家和强调梯度的高演员-评论家推导而来,能够保持所有经典Actor-Critic方法的优点,并且在功能逼近方面被证明是可收敛的。
Feb, 2018
本文提出了第一个适用于off-policy learning的policy gradient定理,并通过使用emphatic weightings导出了简化的梯度公式,并使用Actor Critic with Emphatic weightings (ACE)算法验证了该定理的正确性。
Nov, 2018
本文介绍了一种基于最大熵强化学习框架的离线演员-评论家算法 Soft Actor-Critic,其中演员旨在同时最大化期望回报和熵,以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进,如约束模型等,提高了模型的稳定性和训练速度,并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能,在样本效率和渐近性能方面优于以往的在线和离线算法。
Dec, 2018
本文研究了离策略演员 - 评论家算法的离策略评论家评估问题,并通过将双重稳健估计方法应用于演员 - 评论家算法中,成功提高了连续控制任务的性能。同时,该方法还可以应用于存在高方差和不稳定性等问题的奖励信号,从而提高了强化学习的稳健性与安全性。
Dec, 2019
本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC,通过利用已学习的干扰函数来降低估计误差并减少采样复杂度,同时采用单时间尺度结构,可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛,并且通过分析样本复杂度证明了算法渐进的收敛速率。
Feb, 2021
本文探讨了离线强化学习领域中的一个策略改进方法,使用 on-policy Q 估计的行为策略,通过一步有限制/正则化的策略改进,能在 D4RL 基准测试中表现优于迭代算法。我们认为,迭代算法的性能较差是由于进行 off-policy 评估所固有的高方差以及相对较差的行为策略等原因所导致的。
Jun, 2021
本文研究了基于离线数据的深度强化学习算法,提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力,并且证明了该方法可以实现安全的离线学习。实验证明,该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。
Aug, 2022
该研究论文介绍了一种名为AFU的离策略深度强化学习算法,它通过使用回归和条件梯度缩放的解决方案,以全新的方式解决了连续动作空间中Q学习中具有挑战性的“最大Q问题”。AFU具有一个演员,但它的评论家更新完全独立于其演员,因此演员可以自由选择。实验结果表明,AFU的两个版本都具有样本效率,使其成为首个与最先进的演员-评论家方法竞争的全模型离策略算法。
Apr, 2024