Aug, 2018

在 Plackett-Luce 模型中应对 Bandits 问题的 PAC 方法

TL;DR该研究引入了 PAC Battling-Bandit 问题,通过 Plackett-Luce 子集选择模型在在线学习框架中寻找高置信度的最佳物品,对不同反馈模型下的样本复杂度进行研究,发现利用排名顺序反馈可以从统计效率上提高样本复杂度。