成本感知的最佳臂识别

Feb, 2024

Cost Aware Best Arm Identification

Kellen Kanarios, Qining Zhang, Lei Ying

TL;DR该研究针对具有双重对象的最佳臂辨识问题进行了研究。在传统奖励的基础上，每个臂都与成本分布相关联，目标是通过最小的预期成本来辨识出最高奖励的臂。研究提出了一个理论下界和两种算法，以降低计算复杂性和实现近乎最优的性能。通过实验证明了忽视异质性行动成本会导致亚最优解，并且低复杂性算法在广泛的问题范围内提供近乎最优的性能。

Abstract

In this paper, we study a best arm identification problem with dual objects. In addition to the classic reward, each arm is associated with a cost distribution and the goal is to identify the largest

best arm identification cost distribution reward product development pipelines low-complexity algorithms

发现论文，激发创造

多层次最优臂识别

在本文中，我们研究多信度最佳臂识别问题，通过提出一种以梯度为基础的方法，我们找到了具有渐近最优成本复杂度的解决方案，并针对每个臂还提出了最优保真度的概念。

Jun, 2024

快速和遗憾最优的最佳臂识别：基本限制和低复杂度算法

通过介绍一种新算法 ROBAI 和其变种，该研究识别并解决了在带有双重目标的多臂赌博机问题中达到最优臂的同时最大化奖励的难题；并对算法的停止时间、样本复杂性以及与经典 UCB 算法相比的性能进行了理论分析和数值实验，揭示出了经典 UCB 算法中的 “过度探索” 现象。

Sep, 2023

具有固定预算的局部最优最佳臂鉴别

通过实验设计和策略分析，本研究旨在在固定的实验轮数下，识别具有最高预期结果的最佳治疗方案，以及减少误判的概率和通过计算概率下界来设计最优策略。

Oct, 2023

未知方差的双臂高斯赌博机中局部最优固定预算最佳臂识别

我们提出了一种在自适应实验中估计方差的策略，并展示了在变量未知情况下该策略在渐近情况下是最优的。

Dec, 2023

线性赌臂机中的鲁棒最佳臂识别

我们研究了基于线性奖励的鲁棒最佳臂识别问题（RBAI）。选择近乎最佳的鲁棒臂是我们的主要目标，该过程涉及每轮选择臂并通过探索潜在对手行动来评估其鲁棒性，尤其适用于使用模拟器并寻找实际转移问题中的鲁棒解。我们提出了基于实例的线性奖励的鲁棒最佳臂识别问题的下界，并提出了静态和自适应赌博算法，其样本复杂度与下界相匹配。在合成实验中，我们的算法有效地识别出最佳的鲁棒臂，并与 “预言家” 策略表现相似。作为应用，我们研究了糖尿病护理以及学习对标准计算器不准确的胰岛素剂量建议的过程。我们的算法在识别不同年龄段患者的鲁棒剂量值方面证明了其有效性。

Nov, 2023

关于最佳臂识别的最优样本复杂度

研究最优臂辨识问题，发现新算法和上下限优化，并提出一个新的关于最优样本复杂度的猜想。

Nov, 2015

将后悔最小化和最佳臂识别融合，应用于 A/B 测试

本文提出了一种在线学习算法，结合了最佳手臂识别和成本最小化两个目标，同时在保持遗憾最小化和最佳手臂识别方面具有保证，并将这些结果扩展到实践者面临的非独立同分布情况，旨在通过提供应用程序来权衡成本和决策时间。

Oct, 2018

协方差自适应最佳臂识别

该研究介绍了一种更加灵活的多臂老虎机模型，旨在通过估算臂间协方差来更高效地识别最佳臂，并利用新算法提供了实现此目标的理论保证和数值模拟。

Jun, 2023

基于子人群公平约束的最佳臂识别

本文研究了在子人群中具有公平性约束的最佳臂识别问题，提出了算法并证明了样本复杂度的下限和算法一致。

Apr, 2023

通过赌博反馈进行良好的手臂识别

提出了一种新的随机多臂老虎机问题称为好臂识别，在解决好臂识别过程中面临独特的置信度的探索 - 利用困境并为此提出了一种算法以最小化每个过程的样本数量，该算法在样本复杂度上达到了理论下限并已通过实验得到验证。

Oct, 2017