AAAIJul, 2020

连续博弈的 Helmholtz 分解上的牛顿优化

TL;DR本文提出了基于 NOHD (Newton Optimization on Helmholtz Decomposition)算法的多智能体学习方法,其基于对系统动力学进行无旋(势能)和无源(哈密顿量)分解,保证了纯无旋和无源系统的二次收敛,且在一般的多智能体系统中收敛于稳定的固定点。本文在一些双矩阵游戏和连续 Gridworld 环境中与现有算法的表现进行了比较。