Jul, 2023

非参数上下文臂的最重要变化跟踪

TL;DR研究非参数情境赌博问题,提出经验显著变化的概念来适应不断变化的均值回报函数,证明该更宽容的变化概念可实现最小化的动态遗憾率。