Jun, 2020

广义线性赌臂问题的高效算法:在线随机梯度下降和汤普森抽样

TL;DR本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法,它使用单步 SGD 更新来利用过去的信息并使用汤普森抽样实现探索,能够在探索与利用之间取得平衡,在合成和实际数据集上始终优于现有算法,其总时间复杂度为 T 和 d 的线性比例,其中 T 是总轮次数,d 是特征数量,并实现了 O(T)的遗憾,其中 T 是回合数。