Oct, 2019

多智能体深度强化学习中的置换不变评论家

TL;DR通过提出置换不变批评家机制,能够使得多智能体强化学习系统的采样效率与可扩展性得到提高,同时在多智能体颗粒环境中经过实验验证可以使得测试回合奖励提升15%至50%。