Aug, 2017

带有主导目标的多目标上下文多臂赌博机

TL;DR本文提出了一种新的具有两个目标的多目标情境多臂赌博问题,并通过引入奖励向量及其依赖于上下文的分配来解决问题;提出了基于 Pareto 的指标的 MOC-MAB 算法,证明了其对于二维和 Pareto 的悔恨度都是次线性的,并在合成和实际数据集上与其他最先进的方法进行了比较。