BanditQ -- 在对抗环境中具有保证的每个用户收益的无懊悔学习

Apr, 2023

BanditQ -- 在对抗环境中具有保证的每个用户收益的无懊悔学习

BanditQ -- No-Regret Learning with Guaranteed Per-User Rewards in Adversarial Environments

Abhishek Sinha

TL;DR本文提出一种在线学习算法 BanditQ，基于队列理论和在线学习相结合，实现公平在线预测，并在信息完整的情况下，达到目标约束，同时实现 $O (T^{3/4})$ 的损失率。

Abstract

Classic online prediction algorithms, such as Hedge, are inherently unfair by design, as they try to play the most rewarding arm as many times as possible while ignoring the sub-optimal arms to achieve sublinear regret<

online prediction fairness adversarial setting queueing theory regret

发现论文，激发创造

面向自适应对手的在线强盗学习：从遗憾到策略遗憾

该论文提出了当对手可以适应在线算法的动作时，标准遗憾定义变得不再有效，定义了替代的政策遗憾概念，用于测量在线算法在适应性对手下的性能，并研究了在线赌徒问题的情况，表明任何赌徒算法都无法针对带有无界内存的适应性对手保证次线性的政策遗憾，但同时提出了将标准遗憾限制在次线性边界以下的任何赌徒算法转换为政策遗憾限制在次线性边界以下的算法的一般技术，并将这一结果扩展到其他遗憾变体。

Jun, 2012

信息约束在线学习中的适应性

研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响；提出了一种算法用于处理标签有效预测的问题，并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域，显著提高了现有算法的性能。

Oct, 2019

强盗之中的荣誉：面向在线公平分配的无遗憾学习

通过探索 - 执行算法设计实现在线公平分配研究，解决基于多臂赌博携带公平约束的未知价值非可分配商品的社会福利最大化问题.

Jul, 2024

对抗性贝叶斯强化学习的对抗攻击

在对抗式多臂赌博机中，攻击者通过攻击策略干扰损失或奖励信号，以实现对受害者赌徒玩家的行为控制。我们向攻击者显示，攻击者能够引导任何无憾对抗性赌博算法，在每轮之外的几乎所有轮次中选择次优目标臂，而仅产生次线性的攻击成本。这个结果意味着在现实世界中，基于赌博机的系统中存在重要的安全问题，例如，在线推荐中，攻击者可能能够劫持推荐系统并推广所需的产品。我们提出的攻击算法只需要了解后悔率，因此对受害方使用的具体赌博算法没有任何限制。此外，我们还推导了任何受害者不可知攻击算法必须产生的理论下限，并与我们的攻击产生的上限匹配，这表明我们的攻击在渐近意义下是最优的。

Jan, 2023

更多适应性算法用于对抗式赌博机

提出了一种新颖的算法，采用乐观性和适应性技术，结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题，并在提高先前工作的同时，取得了多种新的数据依赖性遗憾界。

Jan, 2018

分散式多人多臂搶錢機中的遺憾最小學習

该研究考虑了单人和多人多臂老虎机模型的学习问题，提出了两种可分散策略，即 E³ (立方) 和 E³-TS，它们显示出预期遗憾增长的上限为 O (log^(1+ε) T)，并解决了分散的在线学习所产生的附加成本问题。

May, 2015

自适应遗憾在可能的情况下：只需两个查询

在线优化中，给出了强适应遗憾的准确查询和遗憾最优的贪心算法，同时给出了多臂赌博机和赌博凸优化的最优算法，并通过实证研究表明了在不稳定环境和下游任务中的卓越表现。

Jan, 2024

上下文臂针对高效优化学习

本文介绍了一种在线学习算法，它使用了一种基于代价敏感分类器的方法，并实现了最优遗憾率，与之前的算法相比，具有指数级别的运行速度优势，并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。

Jun, 2011

不知道自己价值的情况下学习投标

在复杂拍卖场景中，我们提出了一种在线学习方法，通过利用投标方的效用结构和部分反馈，为拍卖算法提供对最佳固定竞标的遗憾率，这对于行动空间的依赖程度来说比应用通用的贝叶斯智能带宽算法要快指数级收敛，同时又几乎等同于在完全信息环境下所实现的收敛，这些结果是通过分析这一新的基于反馈的在线学习方法实现的。

Nov, 2017

重复拍卖中的在线学习

该研究采用在线学习的方法，使用无差别反馈模型对 Vickrey 拍卖中的策略进行建模，对随机模型和对抗模型进行研究并设计相应的出价策略，为参与此类拍卖的竞标者提供了第一个完整的策略集。

Nov, 2015