优化自适应实验：遗憾最小化和最佳臂识别的统一方法

Feb, 2024

优化自适应实验：遗憾最小化和最佳臂识别的统一方法

Optimizing Adaptive Experiments: A Unified Approach to Regret Minimization and Best-Arm Identification

Chao Qin, Daniel Russo

TL;DR本文提出了一个统一的模型，同时考虑了实验内表现和实验后结果，为大规模人群中的最佳表现提供了一个清晰的理论，并揭示了一些新的洞见。

Abstract

Practitioners conducting adaptive experiments often encounter two competing priorities: reducing the cost of experimentation by effectively assigning treatments during the experiment itself, and gathering information swiftly to conclude the experiment and implement a treatment across t

adaptive experiments regret minimization best-arm identification optimal performance thompson sampling algorithm

发现论文，激发创造

将后悔最小化和最佳臂识别融合，应用于 A/B 测试

本文提出了一种在线学习算法，结合了最佳手臂识别和成本最小化两个目标，同时在保持遗憾最小化和最佳手臂识别方面具有保证，并将这些结果扩展到实践者面临的非独立同分布情况，旨在通过提供应用程序来权衡成本和决策时间。

Oct, 2018

多种最佳臂的遗憾问题

本篇论文旨在应对多臂赌博机问题中存在多个最优 / 近似最优机械臂的后悔最小化问题，通过提出自适应算法来自动适应问题的难度，并在理论和实验方面展现了该算法的优越性。

Jun, 2020

基于遗憾的计量经济学的实验评估

该研究使用实验数据对 Nekipelov、Syrgkanis 和 Tardos（EC 2015）最近提出的基于遗憾的计量经济学方法进行了评估，发现尽管采用了较弱的遗憾假设，其结果至少与采用经典均衡假设获得的结果一样准确。其中，研究发现参与广告拍卖的高估价者理性地将遗憾降至最低，而低估价者的竞价则存在显著超额现象，作者建议进行修正这些偏差并调整基于遗憾的计量经济方法，以提高预测的准确性。

May, 2016

博弈中协作学习的最优遗憾界

我们研究了在一个通用的协作多智能体多臂老虎机模型中的遗憾最小化问题，在该模型中，每个智能体面临一个有限的臂集，并可以通过一个中央控制器与其他智能体进行通信。该模型中每个智能体的最优臂是具有最大期望混合奖励的臂，其中每个臂的混合奖励是其在所有智能体之间的奖励的加权平均，这使得智能体之间的通信至关重要。尽管在这个协作模型下已知最优臂识别的近似复杂度，但最优遗憾问题仍然是开放的。在这项工作中，我们解决了这个问题，并提出了第一个在这个协作老虎机模型下具有最优遗憾界限的算法。此外，我们还展示了只需要一个小的常数期望通信轮数。

Dec, 2023

同时最小化动态遗憾和适应性遗憾

本文提出了一种在线学习算法，能同时最小化动态遗憾和自适应遗憾，具有更强的理论保证。

Feb, 2020

上下文固定预算的最佳臂识别：具有策略学习的自适应实验设计

个性化治疗建议、最佳治疗方法鉴定、上下文信息、自适应实验以及策略学习是这篇研究论文的关键词，通过推荐最佳治疗方法的决策策略获得最小的预期简单后悔，同时为政策学习、实验设计和自适应福利最大化提供了新的方法。

Jan, 2024

探索然后执行策略

研究用高斯奖励两臂赌博问题中最小化后悔的方法。发现基于探索阶段（直到停止时间）和利用阶段的策略必然是次优的，同时提供了一种成本和时间都是优的全序列策略。

May, 2016

快速和遗憾最优的最佳臂识别：基本限制和低复杂度算法

通过介绍一种新算法 ROBAI 和其变种，该研究识别并解决了在带有双重目标的多臂赌博机问题中达到最优臂的同时最大化奖励的难题；并对算法的停止时间、样本复杂性以及与经典 UCB 算法相比的性能进行了理论分析和数值实验，揭示出了经典 UCB 算法中的 “过度探索” 现象。

Sep, 2023

通过极小极大对偶视角看最优遗憾的随机观点

通过 von Neumann 最小极大定理，我们研究了在线凸优化游戏的最优策略的遗憾。我们证明了，在这种对抗性环境中，最优策略的遗憾与随机进程设置中经验最小化算法的行为密切相关：它等于最小期望损失的总和与最小经验损失之间的差的最大值。我们展示了最优策略的遗憾具有自然的几何解释，因为它可以被视为一个上凸函数的 Jensen 不等式中的差距。利用此表达式，我们对各种在线学习问题的最优策略给出了上下界限制。我们的方法提供了无需构建学习算法的上界，而提供了对抗者的明确最优策略的下界。

Mar, 2009

在线组合优化中的遗憾

本文研究使用二进制向量表示决策者可能的选择时的在线线性优化问题及其反悔，探讨了决策者在不同反馈条件下的最优反悔幅度，并提出了一种使用镜像下降算法和隐式归一化预测策略的解决方案，获得了半强盗情形的最优界限，同时也证明了在线组合优化基准算法的次优性。

Apr, 2012