Jun, 2017

MNL-Bandit: 一个动态学习方法用于选品

TL;DR本论文提出一种动态选货方案,使用多项式逻辑选择模型并同时探索和开发以达到近乎最优的性能,可在不知道时界长度的情况下进行完全在线实现,并且在良好分离的情况下以及分离不成立的一般参数设置下的表现也接近最优。