Feb, 2024

乐观信息导向抽样

TL;DR我们提出了一种新的分析框架,将俄罗斯和范・罗伊(2018 年)的信息导向抽样的贝叶斯理论与 Foster 等人(2021 年)的最坏情况理论基于决策估计系数相结合,通过我们的算法模板 Optimistic Information-Directed Sampling,可以实现与经典贝叶斯 IDS 方法类似的实例相关遗憾保证,但不需要任何贝叶斯假设。我们分析的关键技术创新是引入一种乐观的替代模型来衡量遗憾,并使用它来定义俄罗斯和范・罗伊(2018 年)的信息比率和 Foster 等人(2021 年)的决策估计系数的较少保守版本。