Jan, 2014

具有非线性动力学的多智能体强化学习算法

TL;DR使用加权策略学习器(Weighted Policy Learner)算法,基于本地奖励的反馈,实现了多智能体强化学习(MARL)算法在二人二选手博弈中寻找 Nash Equilibrium 的能力。与之前的算法相比,WPL 不需要观察其他智能体动作和奖励,也不需要预先了解博弈本质和 NE 解,收敛表现优于现有的算法,并且在 100 个智能体交互中并行收敛。通过对 WPL 的动力学分析,可以更好地理解该算法的行为,分析 WPL 的收敛性比较困难,需要数值模拟求解动力学微分方程来验证其收敛性。