Oct, 2008

焦虑赌博问题的可索引性与 Whittle 动态多通道访问指数的最优性

TL;DR研究了一类探索性多臂赌博问题,并通过建立指标化和获得 Whittle 指标,提高了 Whittle 指标策略的直接实施性,同时,研究发现 Whittle 指标策略与 “近视政策” 等价,因此具有半通用性,这导致 Whittle 指标策略是某些条件下最优的。同时,通过拉格朗日弛豫,开发了计算性能上限的有效算法,证明了 Whittle 指标策略接近最优。