May, 2019

Thompson 采样在逻辑回归老虎机问题中的表现

TL;DR本研究对 Logistic Bandit 问题进行了研究,确立了 Thompson sampling 算法的鲁棒性,提出了新的度量指标 —— 脆弱性维度,并使用该指标证明了现有算法的上限。