Feb, 2023

马尔科夫博弈中的离线学习和一般函数逼近

TL;DR研究离线多智体强化学习在马尔科夫博弈中学习近似均衡,提供适用于一般函数逼近的新框架以处理所有三种均衡,此框架利用 Bellman 一致压缩和数据覆盖条件,与之前的算法框架相比,其保证更好且能够处理更广泛的情况。