Jul, 2021

基于赌博机的马尔可夫决策过程在线性流中的序列决策建模

TL;DR本文提出了一种基于MDP与Bandits的Thompson采样算法及其在推荐场景中的应用,旨在解决线性流程中的循环决策问题,该算法在模拟实验中表现出色,特别是在跨页相互依赖变化大的情况下,表现最为鲁棒。