Feb, 2016

群体系统中的逆强化学习

TL;DR本文提出了一种基于 SwarMDP 框架的针对分布式多智能体相互作用的逆向强化学习算法,在该框架中,我们证明了与智能体相关的值函数相等,通过引入一种新异构学习策略,我们证明了该框架能够有效地产生有意义的本地奖励模型。