Jan, 2019

具公平约束的组合式睡眠赌博机

TL;DR提出针对多臂赌博机模型(MAB)的新型组合睡眠 MAB 模型。通过扩展在线学习算法 UCB 以处理利用和探索之间的权衡,同时采用虚拟队列技术来正确处理公平性约束。最终提出一种名为 LFG 的新算法,可保证可行性最优,具有受时间平均后悔上限约束的时间复杂度,并进行了广泛的模拟以证明其有效性。