IJCAIApr, 2022

具有复合匿名延迟反馈的有界内存对抗性赌博机

TL;DR本研究探讨了具有复合匿名延迟反馈的对抗性赌徒问题,证明了非遗忘环境下会发生伪遗憾现象。但我们提出了一个包装器算法,在某些对抗赌徒问题上获得了 o (T) 策略遗憾。尤其对于 K-armed bandit 和 bandit 凸优化问题,我们的算法的策略遗憾边界为 Ο(T^(2/3))。 此外,我们还证明了 K-armed bandit 的匹配下界,即使在损失序列是遗忘的但延迟非遗忘的情况下也能实现。