Jul, 2018

深度上下文多臂赌博机

TL;DR本文提出了一个非线性深度学习框架,用于处理上下文多臂赌博机问题,并通过 Thompson sampling 方法来解决探索与开发的取舍。我们采用贝叶斯神经网络的权重后验分布来解决 dropout 和采样之间的联系,并通过自适应学习 dropout 率从而自动调整探索水平。在两个任务上,我们的方法相较于其他方法用于减少损失,并将其应用于 HubSpot 的市场优化问题。