Actor-Critic 方法中的函数逼近误差处理
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019
我们设计了一个决策感知的联合目标来训练演员和评论家,以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题,并提出了一个通用的 Actor-critic 算法来处理任何函数逼近,在一些简单的赌博机示例中,我们证明了提出的评论家目标的好处。最后,我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。
May, 2023
该论文提出了一种分布式软演员 - 评论家算法 (DSAC),通过学习状态 - 动作回报的分布函数来适应性地调整 Q 值函数的更新步长,进而缓解 Q 值过高导致的策略性能下降。通过将返回分布函数嵌入最大熵 RL 中,开发了一种分布式软政策迭代框架 (DSPI),并提出了一个名为 DSAC 的深度离线演员 - 评论家算法的变体,以解决梯度爆炸和梯度消失等问题,并在 MuJoCo 连续控制任务套件上取得了最先进的性能。
Jan, 2020
我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法,保证在离线学习下收敛,解决了动作表示问题带来的高维 “诅咒” 问题,这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来,能够保持所有经典 Actor-Critic 方法的优点,并且在功能逼近方面被证明是可收敛的。
Feb, 2018
本文针对 DQN 算法中 Q-learning 超估计行动价值的问题,提出了 Double Q-learning 算法,通过将其与深度神经网络结合得到了一种新的算法,并在数个游戏里得到了更好的表现。
Sep, 2015
本文介绍了一种使用双重集中式评论家的方法来解决多智能体协作任务中的值函数高估问题,并在六种混合合作竞争任务上进行了评估,结果显示比当前方法具有显著优势,同时还探讨了多智能体方法在高维机器人任务中的应用。
Oct, 2019
混合符号奖励环境中,重新考虑原有策略更新方法的安全性,通过解决数值估计误差的问题和不显式地最大化 Q 值的方法,提出了新的离策略演员 - 评论家方法,以提高深度强化学习算法在连续动作空间中的学习效果。
Nov, 2023
本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色,并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。
Oct, 2018
使用新算法 “Discriminator-Actor-Critic”,提出解决基于 Adversarial Imitation Learning 框架的两个问题:隐式偏差和与环境产生大量交互所需的复杂性。该算法使用离线策略强化学习来降低策略 - 环境交互采样复杂度,并且由于我们的奖励函数是设计为无偏差的,因此可以在许多问题上应用而不进行任何任务特定的调整。
Sep, 2018
基于神经网络的价值函数的近似是领先的基于策略的方法(如 Trust Regional Policy Optimization (TRPO) 和 Proximal Policy Optimization (PPO))的核心。然而,在状态空间和行动空间较低的环境中,计算复杂的神经网络架构与简单的价值函数近似方法相比,提供的改进幅度较小。本文提出了基于自然策略梯度方法的自然演员 - 评论员算法实现,并认为在这些环境中,以线性函数近似为范例的自然策略梯度方法可能超过 TRPO 和 PPO 等基于神经网络的模型的性能和速度。我们观察到,在强化学习基准 Cart Pole 和 Acrobot 上,我们的算法训练速度比复杂的神经网络架构快得多,并获得相等或更好的结果。这使我们能够推荐在传统和稀疏奖励低维问题中使用以线性函数近似为范例的自然策略梯度方法,而不是 TRPO 和 PPO。
May, 2024