Jun, 2019

不完整信息下随机赌博机的内在鲁棒性对策略操纵

TL;DR研究了在自利的情况下,三种常见的赌博算法 UCB, ε-Greedy 和 Thompson Sampling 对策略行为的适应性,为应用于经济学中的推荐系统提供了鲁棒的工具。