Oct, 2018

凹函数 $N$ 人博弈中的赌徒学习

TL;DR研究了非协同凹性博弈中以赌徒反馈为学习手段的长期行为,证明了采用镜像下降算法的不懊悔学习算法在满足标准单调性条件下能以概率 1 收敛于 Nash 均衡,并推导出了其收敛速率的上界。