多智能体强化学习的异步演员 - 评论家算法
提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架,演示了四种标准强化学习算法的异步变体,并表明并行 actor-learner 对训练具有稳定作用。其中最佳表现的方法,即 actor-critic 的异步变体,在 Atari 领域超越了现有的最佳表现,并且仅在单个多核 CPU 上训练一半的时间而不是 GPU。此外,还演示了异步 actor-critic 成功处理了各种连续运动控制问题以及使用视觉输入导航随机 3D 迷宫的新任务。
Feb, 2016
提出了一个基于 Actor-Critic 算法的多智能体强化学习算法,解决了多智能体场景下的信息筛选问题,可应用于大多数多智能体学习问题。
Oct, 2018
本文提出了一种条件推理方法,以解决多智能体协作任务中的高级行为空间集中控制和梯度获取问题,并在代表性的基于选项的多智能体协作任务上验证了其有效性。
Mar, 2022
本研究将离线策略强化学习拓展至多智能体情景中,并利用强调时间差分学习来评估和提高目标策略的协作效应,进而提出了一种新的多智能体离线策略演员 - 评论家算法,并证明了收敛性。
Mar, 2019
本文研究深度强化学习在多智能体领域的应用,提出一种基于演员 - 评论家方法的适应性策略,可成功学习需要多智能体协作的复杂策略,并通过使用每个智能体的策略集进行训练,得到了更强大、更健壮的策略。在合作和竞争场景中,我们的方法相比现有方法能够发现各种物理和信息协调策略。
Jun, 2017
本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色,并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。
Oct, 2018
本文提出了一种基于随机化和多智能体系统 actor-critic 算法的分布式强化学习算法,旨在通过仅与本地邻居通信,协同优化全局平均回报。通过仅发送两个标量值变量,该算法可以解决强连通图的问题。
Jul, 2019
本文论述了异步学习和顺序学习的比较,并在真实环境下使用机器人手臂和视觉任务进行了实验。研究结果表明,当学习更新的时间成本增加时,顺序学习的性能会显著下降,而异步学习会明显胜过顺序学习。
Mar, 2022
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019