Oct, 2023

强单调、指数凸激励博弈中具有梯度反馈的自适应双重最优无懊悔学习

TL;DR设计了一个全自适应的OGD算法,无需先验知识,具有强凸性和单调性参数;在单个代理设置中,该算法在强凸性下可以实现O(log^2(T))的遗憾,且在强单调性下可以使联合行动以速度O(log^3 T / T)最后迭代收敛到唯一的纳什均衡点。