AAAINov, 2016

加权赌博机或:赌博机如何学习扭曲的非预期价值

TL;DR文章研究在多臂老虎机问题中引入代价扭曲的概率分布,提出了一些算法,并证明了这些算法在一定条件下能够达到较好的效果,同时给出了相关的理论分析和数值模拟。