模型增强的 Actor-Critic 算法:透过路径反向传播
本文提出了一种基于动态学习的 MAGE 算法,通过显式学习动作价值梯度,从而进一步优化策略,相较于无模型和有模型的现有算法,该算法在连续控制任务中表现良好。
Apr, 2020
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019
本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色,并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。
Oct, 2018
该研究提出了一种基于 Actor-Critic 框架和条件风险价值的深度强化学习方法,应用于驾驶模拟中,实现了在保证安全的前提下尽量提高任务完成效率,并且相比于其他深度强化学习方法,该方法更具有泛化性。
Nov, 2019
本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题,在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时,能够灵活地运用 policy 设计,具有较强的学习潜力和泛化性能,并能收敛至较好的算法性能。
May, 2012
本文研究了给定线性时间逻辑高级规范的连续状态随机动态系统的正式策略综合问题。通过在动态系统和翻译的自动机之间进行乘积来构造乘积系统,以学习最大化满足概率的最优策略,并在此过程中提出了一种泛化的优化备份顺序,进一步加速了学习过程,在拓扑顺序的情况下提出了一种演员 - 评论家强化学习算法。通过神经网络来近似值和策略函数,并在 Dubins 小车的运动规划上展示了该正式政策综合框架的实证效果。
Apr, 2023
我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法,保证在离线学习下收敛,解决了动作表示问题带来的高维 “诅咒” 问题,这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来,能够保持所有经典 Actor-Critic 方法的优点,并且在功能逼近方面被证明是可收敛的。
Feb, 2018
我们设计了一个决策感知的联合目标来训练演员和评论家,以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题,并提出了一个通用的 Actor-critic 算法来处理任何函数逼近,在一些简单的赌博机示例中,我们证明了提出的评论家目标的好处。最后,我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。
May, 2023
本研究提出了一种新的演员 - 评论家方法,即 GAC,它首先学习本地最大化评论家的指南演员角色,然后通过监督学习来更新策略参数。实验证明,该方法是连续控制的一种有前途的增强学习方法。
May, 2017
强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法,旨在改善政策梯度估计的质量,减少随机性变化,并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升,通过与其他相关方法的比较,为这些政策梯度算法提供了统一视角。
Apr, 2024