May, 2023

具有修剪的隐式归一化线性和非线性重尾多臂赌博机预测器

TL;DR本文提出了基于裁剪的隐式归一化预测器用于重尾分布奖励的多臂老虎机问题,在奖励分布方面假设温和的条件下,得到了收敛性结果,并且对于线性和非线性重尾随机 MAB 问题是最优的,相对于最佳两个世界算法,该算法通常表现更好。