Jun, 2020

全赌臂或部分线性反馈下的组合纯探索

TL;DR提出了多项式时间适应性算法和多项式时间算法,以针对全带回馈和非线性奖励函数等多种情况进行组合纯探索问题的处理,对样本复杂度进行了分析。