Jun, 2011

从强盗到专家:浅谈旁观价值

TL;DR本文探讨了一种对抗性在线学习情境,其中决策者可以在每个阶段选择一个行动,并观察到给定行动的奖励,同时还能获取有关选择其他行动所获得的奖励的信息。研究者们开发出具有可证明的后悔保证的实用算法,这些算法依赖于非平凡的图论信息反馈结构特性。