Aug, 2023

一种改进的延迟反馈赌博机算法

TL;DR通过控制分布漂移和跳过过大延迟的观测,提出了一种新的在可变延迟反馈下进行抽头算法,该算法改进了先前工作并在两个领域提供更紧密的遗憾界限,同时基于未处理观测的计数而不是延迟或最大延迟来估算复杂度。