TD 正则化的 Actor-Critic 方法
深度强化学习中的估计偏差问题以及引入的解决机制,包括新的双 TD 规范化的演员 - 评论家(TDR)方法,通过结合分布学习、长 N 步替代阶段奖励(LNSS)方法等 DRL 改进,我们展示了基于 TDR 的演员 - 评论家学习使得 DRL 方法在 DeepMind Control Suite 中能够超越其基线,在挑战性环境中显著提升了 TD3 和 SAC 的性能,使其与 D4PG(当前领先算法)性能媲美,并且还通过平均奖励、收敛速度、学习成功率和学习方差等指标改善了 D4PG 的性能,达到了新的领先水平。
Nov, 2023
介绍了一种新的 TD 方法 ——TDRC,它在易用性、正确性和性能之间平衡,在 TD 表现良好时,表现与 TD 相当,并且在 TD 发散时保持正确性。
Jul, 2020
通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体,并结合最新的正则化技术,我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。
Mar, 2024
本文探讨了强化学习中,奖励分布呈现重尾分布时,采用动态梯度裁剪机制的 TD 学习和 NAC 方法能够应对此类问题,论证了采用动态梯度裁剪机制的 TD 学习可在偏置和随机梯度变化之间实现有利的权衡,对于一些 p(0<p<=1),都以期望和高的概率下 finie moment(1+p)的重尾收益实现样本复杂度,同时 Robust TD 学习具有相同的特征。
Jun, 2023
我们提出了一种名为 Decoupled Actor-Critic(DAC)的离策略算法,通过梯度反向传播学习两个不同的演员:一个保守的演员用于时序差分学习,一个乐观的演员用于探索。在 DeepMind Control 任务中,DAC 在低和高回放比例的情况下,并结合了多个设计选择,取得了最新的表现和样本效率。
Oct, 2023
介绍一种基于 Actor-Critic 的在线时序差异算法,用于评估值函数以及更新参数,且可以实现对平均奖励的局部最大值的收敛,为构建更真实的强化学习神经科学模型提供了可能性。
Sep, 2009
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019
最近的研究表明,在离线强化学习中使用有监督方法(不使用时序差分学习)既有益处又有局限性。本文提出了一种取长补短的方法,首先通过有监督学习来学习行为策略和评论家,然后再通过离线强化学习进行改进。具体而言,我们通过使用常被忽视的提供的离线轨迹中的下游信息,通过有监督的蒙特卡洛值误差预训练,提高了效率。我们发现在标准基准测试中,我们能够将考虑的离线算法的训练时间减少一半以上,并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性,提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC,对行为策略和评论家进行正则化,更可靠地改进行为策略。代码可在此 URL 找到。
Jun, 2024
使用经典控制理论中的 Lyapunov 方法,为控制系统提供稳定性保证的 actor-critic RL 框架,确保在一定程度的不确定性干扰下,学习到的策略使得系统能够恢复到平衡或航点。
Apr, 2020
提出了一种称为适应性校准评论家 (ACC) 的方法,并将其应用于 Truncated Quantile Critics 中,实现了自适应调整参数,从而消除了低方差时间差分目标的偏差,并在 OpenAI gym 连续控制基准测试中取得了新的最佳成绩。
Nov, 2021