Oct, 2022

深度多智能体强化学习中的斯塔克伯格均衡:神谕和追随者

TL;DR本研究提出了一种将 Stackelberg 平衡搜索实现为多智能体强化学习问题的通用框架,并借助多任务和元强化学习技术实现了一种使用情境策略的方法,在标准和新颖的基准领域上进行了实验,并显示出较以前的方法大大提高的样本效率。同时,我们探讨了超出我们框架边界的算法设计所带来的影响。