May, 2014

非静态奖励多臂老虎机问题中的最优探索利用

TL;DR本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博,提出了一种正式的处理方法,并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。