Jan, 2014
具有非线性动力学的多智能体强化学习算法
A Multiagent Reinforcement Learning Algorithm with Non-linear Dynamics
TL;DR使用加权策略学习器(Weighted Policy Learner)算法,基于本地奖励的反馈,实现了多智能体强化学习(MARL)算法在二人二选手博弈中寻找Nash Equilibrium的能力。与之前的算法相比,WPL不需要观察其他智能体动作和奖励,也不需要预先了解博弈本质和NE解,收敛表现优于现有的算法,并且在100个智能体交互中并行收敛。通过对WPL的动力学分析,可以更好地理解该算法的行为,分析WPL的收敛性比较困难,需要数值模拟求解动力学微分方程来验证其收敛性。