AAAIAug, 2021
连续风险厌恶赌博机汤普森抽样的统一理论
A Unifying Theory of Thompson Sampling for Continuous Risk-Averse Bandits
Joel Q. L. Chang, Vincent Y. F. Tan
TL;DR本文提供了一种连续、优势风险函数 $
ho$ 的风险厌恶型 Thompson 抽样算法设计和分析方法,并证明了多项分布下基于连续优势风险函数的算法 $
ho$-MTS 的渐近最优遗憾界以及 Bernoulli 分布下基于经验分布性能度量的风险测度的渐近最优性,包括了广泛应用的风险测度如 CVaR、比例风险等;数值模拟验证了算法与基线遗憾界的接近度。