Mar, 2024
LC-Tsalis-INF: 广义的两全其美线性上下文决策者
LC-Tsalis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits
Masahiro Kato, Shinji Ito
TL;DR本研究针对具有独立同分布 (i.i.d.) 上下文的线性情境赌博问题,提出一种基于 Follow-The-Regularized-Leader 和 Tsallis 熵的算法,被称为 α-Linear-Contextual (LC)-Tsallis-INF,以降低遗憾值并改进现有的算法。