Oct, 2018

反馈图和切换成本的在线学习

TL;DR研究了在线学习的情况下提供部分反馈信息,并且学习者更改动作需要承受切换成本。提供了期望遗憾的下界和两种新算法,证明了所有无切换成本的算法在有切换成本的情况下都不是最优的。