Apr, 2021

连续博弈中的自适应学习:最优遗憾边界和纳什均衡收敛

TL;DR本文提出了一种基于乐观的镜像下降的无悔策略算法,可以在非稳态环境下实现O(sqrt(T))的后悔度,并可在变分稳定游戏中收敛到纳什均衡。