Jan, 2020

制度转换赌徒

TL;DR本文介绍了一种多臂赌博机问题,其中奖励表现出制度切换,提出了一种在线学习算法,并对算法进行了性能检验和分析。