AAAIAug, 2021

连续风险厌恶赌博机汤普森抽样的统一理论

TL;DR本文提供了一种连续、优势风险函数 $ ho$ 的风险厌恶型 Thompson 抽样算法设计和分析方法,并证明了多项分布下基于连续优势风险函数的算法 $ ho$-MTS 的渐近最优遗憾界以及 Bernoulli 分布下基于经验分布性能度量的风险测度的渐近最优性,包括了广泛应用的风险测度如 CVaR、比例风险等;数值模拟验证了算法与基线遗憾界的接近度。