BriefGPT.xyz
Ask
alpha
关键词
multi-agent policy gradient
搜索结果 - 3
TAPE: 基于智能体拓扑的合作多智能体策略梯度
提出了一个代理拓扑框架,通过在策略梯度中考虑其他代理来实现协作与解决分布一致性不匹配问题的折中方案。该代理拓扑可以使代理使用联盟效用作为学习目标,避免了全局效用或局部效用带来的问题,并通过实验结果表明能够改善 TAPE 的性能。
PDF
6 months ago
合作任务的乐观多智体策略梯度
基于乐观主义更新和激活函数的优化,解决了多智能体学习中的相对过度概括问题,并在复杂任务中表现出优异性能。
PDF
8 months ago
离策略多智体分解策略梯度
本文研究多智能体问题中现有的算法相比于最先进的价值方法存在的性能差异,并提出了一种多智能体分解的策略梯度方法,该方法引入了价值函数分解的想法,并针对离散和连续动作空间中的集中 - 分散不匹配和信用分配问题进行了解决。实验结果表明,该方法在同
→
PDF
4 years ago
Prev
Next