Aug, 2023

在调解员反馈下的纯粹探索

TL;DR该研究提出了一种严格推广的最佳臂标识问题,即在中介者反馈下的最佳臂标识问题,首先推导并分析了与该中介者反馈场景相关的样本复杂度的统计下界,然后提出了一种顺序决策策略,用于根据学习者已知的中介者策略发现最佳臂,最终将这些结果扩展到学习者不知道中介者策略的情况,获得可比较的结果。