ICMLSep, 2017
带有延迟、汇聚匿名反馈的赌博机
Bandits with Delayed, Aggregated Anonymous Feedback
Ciara Pike-Burke, Shipra Agrawal, Csaba Szepesvari, Steffen Grunewalder
TL;DR研究了一种带有延迟的聚合匿名反馈的赌博机问题,表明在期望延迟已知的情况下,可以通过提供的算法,在硬的、延迟聚合匿名反馈设置中维持类似于非匿名问题的后悔成本,但在延迟不确定情况下,增加了对数因子或加性方差项的后悔成本。