Oct, 2020

基于不同实例的情境臂和强化学习复杂度:一种基于反对的视角

TL;DR该研究提出了一种用于上下文Bandit问题的复杂度度量方法,展示了其与最优实例相关遗憾的关系,并给出了新的算法来实现当存在一个最优选择时能够分辨性地进行探索。同时,该研究还在采用函数近似的强化学习问题上提出了新的算法,达到了优化的样本规模。