May, 2021

多臂赌博机连续奖励博弈中的平均场均衡

TL;DR研究用连续奖励函数的均场自博弈,重点在于推导出均场平衡的存在和唯一性,并通过广泛的评估结果验证了MAB问题的实证后悔紧致性。