分布式强化学习的多智能体离线演员 - 评论家算法

Mar, 2019

分布式强化学习的多智能体离线演员 - 评论家算法

A Multi-Agent Off-Policy Actor-Critic Algorithm for Distributed Reinforcement Learning

Wesley Suttle, Zhuoran Yang, Kaiqing Zhang, Zhaoran Wang, Tamer Basar...

TL;DR本研究将离线策略强化学习拓展至多智能体情景中，并利用强调时间差分学习来评估和提高目标策略的协作效应，进而提出了一种新的多智能体离线策略演员 - 评论家算法，并证明了收敛性。

Abstract

This paper extends off-policy reinforcement learning to the multi-agent case in which a set of networked agents communicating with their neighbors according to a time-varying graph collaboratively evaluates and improves a target policy while following a distinct behavior policy. To this end, the paper develops a multi-agent version of →

multi-agent reinforcement learning emphatic temporal difference learning off-policy actor-critic algorithm convergence collaboration

发现论文，激发创造

分布式强化学习中通信高效的多智能体 Actor-Critic 算法

本文提出了一种基于随机化和多智能体系统 actor-critic 算法的分布式强化学习算法，旨在通过仅与本地邻居通信，协同优化全局平均回报。通过仅发送两个标量值变量，该算法可以解决强连通图的问题。

Jul, 2019

离策演员 - 评论家

本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题，在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时，能够灵活地运用 policy 设计，具有较强的学习潜力和泛化性能，并能收敛至较好的算法性能。

May, 2012

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

基于策略梯度的可扩展集中化深度多智体强化学习

探索使用强化学习解决多智能体问题，将多智能体强化学习问题视为分布式优化问题处理，假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替，结果表明该算法在协作和竞争任务上比现有方法更加有效。

May, 2018

多智能体强化学习的异步演员 - 评论家算法

该论文提出一种多代理演员 - 评论家方法，允许代理在异步环境中直接优化策略，以解决多代理系统中同步决策的问题，提高学习效率和性能。

Sep, 2022

多智能体演员 - 评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

多智能体强化学习的演员 - 注意力 - 评论家模型

提出了一个基于 Actor-Critic 算法的多智能体强化学习算法，解决了多智能体场景下的信息筛选问题，可应用于大多数多智能体学习问题。

Oct, 2018

强化学习的双重稳健离线策略演员 - 评论家算法

本文研究了离策略演员 - 评论家算法的离策略评论家评估问题，并通过将双重稳健估计方法应用于演员 - 评论家算法中，成功提高了连续控制任务的性能。同时，该方法还可以应用于存在高方差和不稳定性等问题的奖励信号，从而提高了强化学习的稳健性与安全性。

Dec, 2019

多智能体自然演员 - 评论强化学习算法

本研究提出三种完全分散的自然 Actor Critic （MAN）算法，具有全局收敛性和在交通网络中降低平均拥堵率的实际应用。

Sep, 2021

双重稳健离线演员 - 评论家算法：收敛和最优性

本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC，通过利用已学习的干扰函数来降低估计误差并减少采样复杂度，同时采用单时间尺度结构，可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛，并且通过分析样本复杂度证明了算法渐进的收敛速率。

Feb, 2021