Sep, 2022

多智能体强化学习的异步演员 - 评论家算法

TL;DR该论文提出一种多代理演员 - 评论家方法,允许代理在异步环境中直接优化策略,以解决多代理系统中同步决策的问题,提高学习效率和性能。