May, 2023

组合半匪谷、线性匪谷和 MDP 的非随机延迟反馈的统一分析

TL;DR本文提出了 Follow The Regularized Leader (FTRL) 算法并应用于在线学习中,通过分离延迟反馈成本和赌博反馈成本,得出了在三种不同的情况下的新结果,包括组合半赌博、带延迟的对抗 Markov 决策过程以及带权值的线性赌博。我们的新型遗憾分解显示 FTRL 在正则化程序的 Hessian 矩阵上的温和假设下,可在多轮中保持稳定,并为线性赌徒提供了一种有效算法和接近最优的遗憾限制。