Oct, 2020

线性赌博机中表示学习的影响

TL;DR研究表征学习如何提高赌博机问题的效率,提出一种可以共享线性表征的新算法来减少后悔,实验结果证明该算法在合适的情况下优于独立运行赌博机的朴素算法,并将该算法推广到无限动作集的情况中。