基于专家建议的留投区随机选择问题

Feb, 2024

基于专家建议的留投区随机选择问题

Bandits with Abstention under Expert Advice

Stephen Pasteris, Alberto Rumi, Maximilian Thiessen, Shota Saito, Atsushi Miyauchi...

TL;DR我们研究了专家意见下具有预测的经典问题，假设学习者选择不参与游戏的行动在每次试验中既没有奖励也没有损失，我们提出了 CBA 算法，利用这个假设获得了可以显著改善经典 Exp4 算法的奖励界限。我们将问题视为对置信度评估预测器进行合并，当学习者有选择不参与游戏的选项时。重要的是，我们是首次在普通置信度评估预测器上实现了累积期望奖励的界限。在专家预测器的特殊情况下，我们实现了一种新的奖励界限，显著改善了以前在特殊专家（将不参与视为另一种行动）上的界限。作为一个示例应用，我们讨论了在有限度量空间中学习球的并集。在这个背景设置中，我们设计了 CBA 的高效实现，将运行时间从二次降低到几乎线性与上下文数量相当。初步实验表明 CBA 在现有的 bandit 算法上有所改进。

Abstract

We study the classic problem of prediction with expert advice under bandit feedback. Our model assumes that one action, corresponding to the learner's abstention from play, has no reward or loss on every trial. We propose the CBA algorithm, which exploits this assumption to obtain rewa

prediction with expert advice bandit feedback cba algorithm confidence-rated predictors specialists

发现论文，激发创造

具有弃权的多臂赌博机

我们介绍了多臂赌博问题的一种新颖扩展，它包括一个额外的战略要素：弃权。在这个增强的框架中，智能体不仅在每个时间步骤中被要求选择一个臂，还可以选择在观察之前放弃接受随机瞬时奖励。当选择放弃时，智能体将遭受固定的后悔或获得保证的奖励。在这种增加的复杂性下，我们问是否能够开发出既渐近最优又极小最优算法。通过设计和分析算法，我们肯定地回答了这个问题，使得后悔满足相应的信息论下界。我们的结果为放弃选项的好处提供了有价值的定量洞察，为进一步探索其他具有这种选项的在线决策问题打下了基础。数值结果进一步支持了我们的理论发现。

Feb, 2024

具有放弃反馈的贝叶斯主动学习

本研究采用贝叶斯方法研究了具有放弃反馈的基于池的主动学习问题，提出了两种新的贪心算法，同时学习分类问题和未知的放弃率，证明了这两种算法均具有近似最优保证，并在各种实际情况下进行了实验验证。

Jun, 2019

关于插值专家和多臂赌博机的研究

研究一种插值两种不同信息观察方式的在线决策问题，称为 $\mathbf {m}$-MAB。施加 $\mathbf {m}$-MAB 的紧凑极小后悔界，并为其纯探索版本 $\mathbf {m}$-BAI 设计了最佳 PAC 算法。本文还将 $\mathbf {m}$-MAB 的上限和下限扩展到了更一般的带有图反馈的情景下，并得出了在几个反馈图族中获得紧凑极小后悔界的结果。

Jul, 2023

弃权排名

我们介绍了一种新的排名框架，其中学习器可以以有限的代价 $c$ 放弃对某些预测的判断，并对这个框架进行了广泛的理论分析，包括一系列 $f$- 一致性边界，达到了此领域的最新理论保证水平，我们进一步提出，这种新的放弃策略在使用常见的等连续假设空间时显得尤为重要，我们还报告了实验结果，证明了带放弃策略的排名方法的有效性。

Jul, 2023

非平稳赌博机问题的置信上限策略

本文考虑了分布保持不变，但在未知时间发生改变的非稳态赌徒问题，研究了两种算法：折扣上限置信区间和滑动窗口上限置信区间，并通过 Hoeffding 不等式得到了后者的上界，对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界，证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。

May, 2008

拜占庭弹性的分散式多臂赌博机

该研究通过开发一种完全分散的鲁棒上置信界算法，将信息混合步骤与不一致和极端值的截断步骤结合起来，以恢复分散合作多臂赌博中的有效行为，提高正常代理的表现。该算法在遗憾方面不劣于单代理 UCB1 算法，并且所有正常代理的累积遗憾严格优于非合作情况。实验证实了这一框架的优点。

Oct, 2023

因果抽象多臂赌博机

将传输学习应用于因果抽象多臂赌博机，研究算法学习和后悔度，以解决在线广告相关的现实场景。

Apr, 2024

自举式上置信域界限算法

本文提出了一种基于乘数 bootstrap 的非参数和数据相关的 UCB 算法，并进一步将二阶校正融入该算法，在理论上，我们推导出了在比标准次高斯性更弱的尾部假设下的多臂老虎机的问题相关和问题无关的后悔边界，数值结果表明 UCB 算法相比其他基线在一系列多臂和线性老虎机问题中都有显著的降低后悔

Jun, 2019

关于上下文相关赌博机聚类的研究

CAB 算法是一种协同推荐算法，它采用了上下文相关的用户邻域估计机制，能够同时进行探索利用平衡和协同步骤，证明了具有不同数据假设的后悔边界，并在生产和真实数据集上验证了 CAB 的显着预测性能优势。

Aug, 2016

具有不对称置信区间的预算多臂赌博机

本文研究了随机预算多臂赌博问题，并提出了一种名为 ω-UCB 的新的上置信界（UCB）采样策略，该策略使用了不对称置信区间，并表明该方法具有对数遗憾且在合成和真实设置中始终优于现有策略。

Jun, 2023