May, 2015

分散式多人多臂搶錢機中的遺憾最小學習

TL;DR该研究考虑了单人和多人多臂老虎机模型的学习问题,提出了两种可分散策略,即 E³ (立方) 和 E³-TS,它们显示出预期遗憾增长的上限为 O (log^(1+ε) T),并解决了分散的在线学习所产生的附加成本问题。