基于离线训练和函数近似的收敛演员 - 评论家算法
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019
本文提出了第一个可证明收敛的双时间尺度离线策略演员 - 评论家算法(COF-PAC)并引入了一个新的评论家,强调评论家,通过梯度强调学习来训练。通过强调评论家和典型的价值函数评论家的帮助,证明了 COF-PAC 的收敛性,其中批评家是线性的,演员可以是非线性的。
Nov, 2019
我们设计了一个决策感知的联合目标来训练演员和评论家,以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题,并提出了一个通用的 Actor-critic 算法来处理任何函数逼近,在一些简单的赌博机示例中,我们证明了提出的评论家目标的好处。最后,我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。
May, 2023
本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题,在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时,能够灵活地运用 policy 设计,具有较强的学习潜力和泛化性能,并能收敛至较好的算法性能。
May, 2012
本文提出了改进的强化学习算法及其复杂度分析,该算法使用离线学习和线性函数逼近,并使用时间差分学习和自然策略梯度优化,其采样复杂度为 O (ϵ^−3)。
May, 2021
该研究提出了一种基于 Double Q-learning 的算法来处理深度 Q-learning 和 actor-critic 算法中出现的过高估计的问题,在 OpenAI Gym 的测试中,该算法表现出优异的性能。
Feb, 2018
本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色,并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。
Oct, 2018
本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC,通过利用已学习的干扰函数来降低估计误差并减少采样复杂度,同时采用单时间尺度结构,可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛,并且通过分析样本复杂度证明了算法渐进的收敛速率。
Feb, 2021
提出了一种新的算法 Mean Actor-Critic(MAC)用于离散动作连续状态强化学习,该算法使用代理的所有动作值的显式表示来估计策略的梯度,证明这种方法相对于传统的 Actor-Critic 方法减少了策略梯度估计中的方差,并在两个控制域和六个 Atari 游戏上展示了与最先进的策略搜索算法的竞争力。
Sep, 2017
混合符号奖励环境中,重新考虑原有策略更新方法的安全性,通过解决数值估计误差的问题和不显式地最大化 Q 值的方法,提出了新的离策略演员 - 评论家方法,以提高深度强化学习算法在连续动作空间中的学习效果。
Nov, 2023