Jul, 2021

非凸赌臂优化的最优梯度算法

TL;DR本文研究非凸奖励的赌博机问题,提出了一种适用于一类具有非凸奖励函数的赌博机算法,通过统一的零阶优化范式达到了多项式设置下的最优速率,并在生成模型的 RL 中实现了算法的应用,从而取得了比之前方法更好的样本复杂度。