decentralized policies | BriefGPT

关键词decentralized policies

搜索结果 - 6

ICML多智能体强化学习的演员 - 注意力 - 评论家模型
提出了一个基于 Actor-Critic 算法的多智能体强化学习算法，解决了多智能体场景下的信息筛选问题，可应用于大多数多智能体学习问题。
PDF6 years ago
PRIMAL: 通过强化学习和模仿多智能体学习进行路径规划
该研究提出了 PRIMAL，一种新的多智能体路径规划框架，结合了强化学习和模仿学习，用于训练全分散策略，在部分可观测的环境中在线反应式规划路径，具有隐式协调性。该框架通过引入专家规划器的演示，细心的奖励重新塑造和环境抽样，扩展了以前我们在协
PDF6 years ago
QMIX: 深度多智能体强化学习的单调价值函数分解
QMIX 是一种基于价值的方法，可以在中央化端到端方式下训练去中心化策略，其在 StarCraft II 微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。
PDF6 years ago
多智能体系统的全分散策略：信息理论方法
本文提出了基于信息论的速率畸变理论框架，它使得我们能够分析完全分散的政策能够重构最优解的程度，同时，该框架提供了自然的扩展解决了一个代理应该与哪些节点通信以提高其个体策略的性能的问题。
PDF7 years ago
AAAI含延迟概率的多智能体路径规划
该研究提出了一个基于 Multi-Agent Path Finding (MAPF) 的两层搜索的 MAPF-DP 解决方案，包括规划具有不完美执行计划的有效 MAPF-DP 解决方案，提出了具有鲁棒性的计划执行策略以控制每个代理的行动，展
PDF8 years ago
分散式多人多臂搶錢機中的遺憾最小學習
该研究考虑了单人和多人多臂老虎机模型的学习问题，提出了两种可分散策略，即 E³ (立方) 和 E³-TS，它们显示出预期遗憾增长的上限为 O (log^(1+ε) T)，并解决了分散的在线学习所产生的附加成本问题。
PDF9 years ago