Jun, 2015

Thompson 采样的先验敏感性

TL;DR本文深入分析了 Thompson Sampling 算法中对先验分布选择的鲁棒性,发现在选择优先概率质量时,其遗憾上限与先验正判度呈 O (√T/p), 先验负判度呈 O (√(1-p) T), 并利用这些性质提出了一种基于鞅理论的新证明方法。