May, 2019

特征空间中的强化学习:矩阵赌博机、核函数和遗憾界

TL;DRMatrixRL 是一种在线强化学习算法,可以通过学习概率转换模型的低维表示来缓解维度性的问题,同时可以平衡探索和开发之间的权衡。此算法具有接近于时间 $T$ 和维度 $d$(或 $ ilde {d}$)稳定性的可能性。