双重稳健离线演员 - 评论家算法:收敛和最优性
本文研究了离策略演员 - 评论家算法的离策略评论家评估问题,并通过将双重稳健估计方法应用于演员 - 评论家算法中,成功提高了连续控制任务的性能。同时,该方法还可以应用于存在高方差和不稳定性等问题的奖励信号,从而提高了强化学习的稳健性与安全性。
Dec, 2019
本文提出了第一个可证明收敛的双时间尺度离线策略演员 - 评论家算法(COF-PAC)并引入了一个新的评论家,强调评论家,通过梯度强调学习来训练。通过强调评论家和典型的价值函数评论家的帮助,证明了 COF-PAC 的收敛性,其中批评家是线性的,演员可以是非线性的。
Nov, 2019
我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法,保证在离线学习下收敛,解决了动作表示问题带来的高维 “诅咒” 问题,这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来,能够保持所有经典 Actor-Critic 方法的优点,并且在功能逼近方面被证明是可收敛的。
Feb, 2018
在马尔可夫决策过程的顺序忽略性下,具有两重鲁棒性的方法在离线策略评估中具有良好的性能,通过引入一种截断两重鲁棒估计器,该方法能够在不满足强分布重叠假设的情况下实现准确的离线策略评估。
Feb, 2024
强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法,旨在改善政策梯度估计的质量,减少随机性变化,并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升,通过与其他相关方法的比较,为这些政策梯度算法提供了统一视角。
Apr, 2024
该研究提供了 Actor-Critic(AC)算法和 Natural Actor-Critic(NAC)算法的最紧密的非渐近收敛界限,并使用兼容函数逼近进行收敛性分析。
Jun, 2024
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019
本文提出了第一种具有非渐近收敛率的二次时间尺度演员 - 评论家和自然演员 - 评论家算法的样本复杂度,通过使用新技术对动态变化 Markovian 采样的 actor 偏差误差进行边界估计并分析带有动态变化基函数和转换内核的线性评论家的收敛速率。
May, 2020
我们提出了一种名为 Decoupled Actor-Critic(DAC)的离策略算法,通过梯度反向传播学习两个不同的演员:一个保守的演员用于时序差分学习,一个乐观的演员用于探索。在 DeepMind Control 任务中,DAC 在低和高回放比例的情况下,并结合了多个设计选择,取得了最新的表现和样本效率。
Oct, 2023
我们设计了一个决策感知的联合目标来训练演员和评论家,以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题,并提出了一个通用的 Actor-critic 算法来处理任何函数逼近,在一些简单的赌博机示例中,我们证明了提出的评论家目标的好处。最后,我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。
May, 2023