Oct, 2020

多智能体强化学习中的学习学习策略梯度算法

TL;DR本研究提出了一种新的元多智能体策略梯度定理,该定理直接考虑到多智能体学习环境中固有的非稳态策略动态,并通过建模梯度更新以考虑智能体自身的非稳态策略动态以及环境中其他代理的非稳态策略动态来达成。在多种多智能体基准测试中,我们的方法能够在全谱的混合激励、竞争和合作领域中比基线方法更有效地适应学习新的代理。