May, 2018

具有连续可分离奖励函数的组合纯探索及其应用(扩展版)

TL;DR研究使用尽可能少的臂样本来确定具有最大奖励决策的自适应学习算法,解决具有连续可分离奖励函数的组合纯探索问题, 并分析了其样本复杂度, 并且给出了可以处理非线性奖励函数的示例。