Mar, 2016

一类 POMDP 的在线学习:针对有反应的用户的最佳推荐

TL;DR本文提出了一种自动在线推荐系统的模型,其中用户的喜好是时变的并且可以依赖于过去的推荐历史和玩出历史,通过使用基于 Thompson 采样的在线强化学习算法,该模型可以学习优化推荐效果,并具有可证明的性能保证。