Jun, 2023

具有异质奖励方差的固定预算的最佳臂识别

TL;DR研究在异质奖励方差的固定预算设置下的最佳臂识别问题,提出两种方差自适应的算法:SHVar 和 SHAdaVar,分别用于已知奖励方差和未知奖励方差情况下,通过不均匀预算分配实现对高方差臂的偏好,本文还给出了误判最佳臂的概率界限。