ICMLFeb, 2020

超越 ucb: 具有回归预测器的最优和高效上下文臂算法

TL;DR本文提出了一种将上下文强化学习转化为在线回归问题的算法;该算法可以在泛型函数类上实现最小化风险,并且与以前的结果相比,它不需要任何分布假设,即使在敌对性上下文的情况下也可以工作。