AAAINov, 2016
加权赌博机或:赌博机如何学习扭曲的非预期价值
Weighted bandits or: How bandits learn distorted values that are not expected
Aditya Gopalan, L.A. Prashanth, Michael Fu, Steve Marcus
TL;DR文章研究在多臂老虎机问题中引入代价扭曲的概率分布,提出了一些算法,并证明了这些算法在一定条件下能够达到较好的效果,同时给出了相关的理论分析和数值模拟。