解耦的 Actor-Critic
研究了一种基于 MDPs 的新型选项框架,应用 Actor-Critic 算法学习内部选项策略,终止条件和选项的主策略,并在具有挑战性的机器人仿真任务中展示了 DAC 对于传输学习的优越性能。
Apr, 2019
强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法,旨在改善政策梯度估计的质量,减少随机性变化,并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升,通过与其他相关方法的比较,为这些政策梯度算法提供了统一视角。
Apr, 2024
本论文提出了一种新的强化学习算法 —— 乐观的 Actor-Critic 方法 (OAC),通过在状态动作值函数上近似上限和下限的置信区间,实现了在探索性上的乐观及方向性采样,从而提高了算法对连续控制任务的采样效率。
Oct, 2019
提出了一种称为适应性校准评论家 (ACC) 的方法,并将其应用于 Truncated Quantile Critics 中,实现了自适应调整参数,从而消除了低方差时间差分目标的偏差,并在 OpenAI gym 连续控制基准测试中取得了新的最佳成绩。
Nov, 2021
本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题,在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时,能够灵活地运用 policy 设计,具有较强的学习潜力和泛化性能,并能收敛至较好的算法性能。
May, 2012
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019
本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC,通过利用已学习的干扰函数来降低估计误差并减少采样复杂度,同时采用单时间尺度结构,可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛,并且通过分析样本复杂度证明了算法渐进的收敛速率。
Feb, 2021
这篇论文介绍了一种名为 Diffusion Actor-Critic(DAC)的方法,用于解决离线强化学习中价值函数过高估计的问题,并通过扩散模型来表示目标策略,进而通过 Kullback-Leibler(KL)约束策略迭代来规范化目标策略。该方法在 D4RL 基准上的实验表明,在几乎所有环境中,其性能优于现有的方法。
May, 2024
该论文提出了一种分布式软演员 - 评论家算法 (DSAC),通过学习状态 - 动作回报的分布函数来适应性地调整 Q 值函数的更新步长,进而缓解 Q 值过高导致的策略性能下降。通过将返回分布函数嵌入最大熵 RL 中,开发了一种分布式软政策迭代框架 (DSPI),并提出了一个名为 DSAC 的深度离线演员 - 评论家算法的变体,以解决梯度爆炸和梯度消失等问题,并在 MuJoCo 连续控制任务套件上取得了最先进的性能。
Jan, 2020
这篇论文介绍了对标准的 DSAC 算法进行三个重要修正,包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑,修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2,在各种基准任务中的表现进行了系统评估,结果显示,在所有测试环境中,不需要任何任务特定的超参数调整,DSAC-T 超越了许多主流的无模型 RL 算法,包括 SAC、TD3、DDPG、TRPO 和 PPO,并且与标准版本相比,DSAC-T 确保了高度稳定的学习过程,并在不同的奖励尺度下具有相似的性能。
Oct, 2023