Oct, 2023

多用户延迟反馈中的改进 EXP3 及其自适应变体在对抗性赌博中的应用

TL;DR对于带有延迟反馈的对抗性多臂赌博问题,我们设计了一种改进的 EXP3 算法 MUD-EXP3 来处理多用户延迟反馈,同时提出了一种自适应算法 AMUD-EXP3,这两种算法在实验中被证明是正确且有效的,并给出了关于遗憾的理论分析。