多智能体强化学习的演员 - 注意力 - 评论家模型
本文提出了一种基于深度强化学习和注意力机制的多视角环境下的模型,能够学习一个能够根据每个视角的重要性来动态决策的策略,实验结果表明在各种复杂环境中都表现出色。
Jul, 2019
本文提出了一种基于分层图注意力网络和多智能体 actor-critic 的模型,可以进行多智能体表示学习和多智能体策略学习,通过两种特殊设计的图注意力网络促进多智能体之间的协作和竞争,实现在新任务中的策略迁移并优于其他现有方法。
Sep, 2019
本文提出了一种基于 actor-critic 算法的多智能体学习方法,可以让一组异构代理学习无人机覆盖未知环境的分散控制策略,此方法可被应用于国家安全和紧急响应组织中以提高在危险区域中的情境感知能力。
Oct, 2020
本文研究深度强化学习在多智能体领域的应用,提出一种基于演员 - 评论家方法的适应性策略,可成功学习需要多智能体协作的复杂策略,并通过使用每个智能体的策略集进行训练,得到了更强大、更健壮的策略。在合作和竞争场景中,我们的方法相比现有方法能够发现各种物理和信息协调策略。
Jun, 2017
本文提出了一种基于随机化和多智能体系统 actor-critic 算法的分布式强化学习算法,旨在通过仅与本地邻居通信,协同优化全局平均回报。通过仅发送两个标量值变量,该算法可以解决强连通图的问题。
Jul, 2019
本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色,并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。
Oct, 2018
研究了多视角环境下的深度强化学习问题,并提出基于注意力机制的方法以学习动态关注环境中不同视角的重要性以促进决策制定和复杂策略的学习。在 TORCS 赛车模拟器和三个其他带有障碍物的复杂 3D 环境上验证了该方法的有效性。
May, 2019
本文引入基于注意力机制的扩展方法到 option-critic 架构中,以实现带状态抽象的多样性 options 学习,有效解决了 option-critic 中出现的选项主导和频繁切换的问题,并在转移学习任务中展示出更高的效率,可解释性和重复利用性。
Jan, 2022