May, 2014

随机多臂赌博机中的广义风险厌恶

TL;DR探讨了在多臂赌博机中最小化遗憾的问题,其中臂的好坏度量不是平均回报率,而是平均值和方差的某个通用函数,特征化了学习可能的条件,并展示了对于某些情况自然算法无法实现亚线性遗憾的例子。