Jan, 2019

在马尔可夫决策过程中学习协作

TL;DR针对一个由两个代理解决协作任务的两代理 MDP 框架,设计一种在线学习算法,使得当第二代理以未知的方式适应其策略时,第一代理能够轻松成功协作,保证了算法的收敛速度,并证明了这种方式的必要性和适用性。