Apr, 2023

随机赌博机中的遗憾分布:期望和尾部风险之间的最优权衡

TL;DR研究了随机多臂赌博问题中期望值和尾部风险之间的权衡,提出了一种新的策略以实现任何遗憾阈值的最优遗憾尾部概率,该策略在最坏情况下和实例相关情况下分别实现了$\alpha$-最优和$\beta$-一致,探究了最差情况和实例相关情况下的遗憾期望和遗憾尾部风险之间的权衡,同时表明在知道规划时间范围时,尾部风险可以降低。