ICMLMay, 2024

可证明高效的对抗性不安静多臂赌博机强化学习:未知转换和赌博机反馈

TL;DR通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略,我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题,以最大化总的敌对奖励,并确保在每个决策阶段满足瞬时激活约束条件,我们的算法在我们所考虑的具有挑战性的设置中保证了约根号 T 的遗憾界,这在我们的所知范围内是首次实现的。