价值改进的演员评论算法
我们设计了一个决策感知的联合目标来训练演员和评论家,以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题,并提出了一个通用的 Actor-critic 算法来处理任何函数逼近,在一些简单的赌博机示例中,我们证明了提出的评论家目标的好处。最后,我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。
May, 2023
本文研究了离策略演员 - 评论家算法的离策略评论家评估问题,并通过将双重稳健估计方法应用于演员 - 评论家算法中,成功提高了连续控制任务的性能。同时,该方法还可以应用于存在高方差和不稳定性等问题的奖励信号,从而提高了强化学习的稳健性与安全性。
Dec, 2019
强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法,旨在改善政策梯度估计的质量,减少随机性变化,并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升,通过与其他相关方法的比较,为这些政策梯度算法提供了统一视角。
Apr, 2024
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019
本研究提出使用敌对模型来促进探索及提高效率,从而解决各类探索困难且奖励很少的问题,发现使用 Adversarially Guided Actor-Critic 比当前的现有方法都更加有效。
Feb, 2021
提出了两种基于强化学习的算法,分别是基于策略梯度的方法和基于 actor-critic 的方法,通过在动态环境下优化控制策略,针对一个给定的目标环境,能够在很少的试验次数内生成一个良好的控制器。多个不匹配且可能是模拟环境下学习来的基本控制器,混合并组合使之稳定控制。
Jul, 2022
本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题,在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时,能够灵活地运用 policy 设计,具有较强的学习潜力和泛化性能,并能收敛至较好的算法性能。
May, 2012
通过引入虚拟行动演员 - 评论家框架(VAAC),本文提出了一种用于强化学习中有效探索的新型演员 - 评论家框架,其灵感来自人类在不实际采取行动的情况下预想其潜在结果的能力。实验结果表明,VAAC 相比现有算法改善了探索性能。
Nov, 2023
本文提出了一种新的 actor-critic 算法,叫做 Dual-AC,并通过多步引导,路径正则化和随机对偶上升算法有效地解决了极小极大优化问题,取得了几项基准测试的最佳表现。
Dec, 2017
本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC,通过利用已学习的干扰函数来降低估计误差并减少采样复杂度,同时采用单时间尺度结构,可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛,并且通过分析样本复杂度证明了算法渐进的收敛速率。
Feb, 2021