Jul, 2021

带多臂的不安匪徒问题:打败中心极限定理

TL;DR本文研究了在 Whittle 渐近制度下,针对具有多个拉动次数的有限时间不安定老虎机问题的指数政策和流体优先政策等解法,并在数字实验中证明了流体优先策略的较优性。