Sep, 2024

基于强盗反馈的聚类与分布匹配的通用框架

TL;DR本研究解决了在强盗反馈下的聚类与分布匹配问题,提出了一个在线算法以最小化平均臂拉取次数,同时确保误差概率不超过预设值$\delta$。研究的关键发现是,所提算法的平均拉取次数与非渐近下界相匹配,且存在新的界限揭示了该算法平均拉取次数收敛基本极限的速度。