May, 2019

Thompson采样在逻辑回归老虎机问题中的表现

TL;DR本研究对Logistic Bandit问题进行了研究,确立了Thompson sampling算法的鲁棒性,提出了新的度量指标——脆弱性维度,并使用该指标证明了现有算法的上限。