Feb, 2024

实例最优在线学习的 SMART 方法

TL;DR我们提出了一种在线学习算法 —— 通过单调适应性遗憾追踪(SMART)进行切换,它适应数据并实现了在每个输入序列上相对于领导者跟随(FTL)策略的表现和任何其他输入策略的最坏情况保证同时有效的遗憾,通过我们的算法,我们证明 SMART 政策在任何输入序列上的遗憾在与 FTL 获得的遗憾和给定最坏情况策略保证的遺憾上都在乘法因子 e/(e-1)≈1.58 的范围内,同时它是简单易实施的,并通过一种基本的分析方法证明了实例上在线学习相对于滑雪租赁问题的竞争分析的可行性,我们还提出了 SMART 的一个修改版本,通过将 FTL 与 “小损失” 算法相结合,实现了在 FTL 和小损失遗憾上的实例最优性。