Aug, 2022

在最大化收益的同时减少不平等:改进赌博算法的紧密任何时刻保证

TL;DR研究改进多臂老虎机(IMAB)问题在未来奖励不确定的情况下,如何使决策者在考虑潜在长期回报时最大化当前累计奖励,并提出了一种算法来解决此问题,并证明其近似最优。