Jun, 2014

带有侧面信息的 MDPs 在线学习

TL;DR本文提出了一种在线学习算法,使用有限马尔可夫决策过程解决了具有临床试验和推荐系统的应用方案的问题,该算法可以在计算效率上得到提升,并且在此设置下的后悔度最多为 O (√T)。