May, 2013

一种高效的半强化反馈学习算法

TL;DR研究在线组合优化问题下的半强化反馈,提出了一种结合 FPL 预测方法和新颖的损失估计程序(称为 Geometric Resampling)的学习算法,并且在能够进行高效离线组合优化的任何决策集合上可以有效实现。假设决策集合的元素可以用至多 m 个非零项的 d 维二进制向量来描述,证明了我们算法的期望遗憾在 T 轮后是 O (m sqrt (dT log d)),并且在全信息设置中也改进了 FPL 的最佳遗憾限制。