Feb, 2024

基于专家建议的留投区随机选择问题

TL;DR我们研究了专家意见下具有预测的经典问题,假设学习者选择不参与游戏的行动在每次试验中既没有奖励也没有损失,我们提出了 CBA 算法,利用这个假设获得了可以显著改善经典 Exp4 算法的奖励界限。我们将问题视为对置信度评估预测器进行合并,当学习者有选择不参与游戏的选项时。重要的是,我们是首次在普通置信度评估预测器上实现了累积期望奖励的界限。在专家预测器的特殊情况下,我们实现了一种新的奖励界限,显著改善了以前在特殊专家(将不参与视为另一种行动)上的界限。作为一个示例应用,我们讨论了在有限度量空间中学习球的并集。在这个背景设置中,我们设计了 CBA 的高效实现,将运行时间从二次降低到几乎线性与上下文数量相当。初步实验表明 CBA 在现有的 bandit 算法上有所改进。