Oct, 2023

$α$-公平上下文强化学习

TL;DR设计了一种高效算法,确保在全信息和强盗反馈设置中几乎达到次线性的遗憾,以解决 alpha-fair contextual bandits 问题。