Jan, 2019

协调人群:在非合作系统中诱导理想均衡

TL;DR本文提出了一种奖励设计方法,通过多智能体强化学习和黑盒优化使得自利型智能体在非合作多智能体系统中选择的动作能够产生优化的系统结果,并且能通过离线的马尔可夫博弈来得到最优的激励设计结构。