May, 2019
特征空间中的强化学习:矩阵赌博机、核函数和遗憾界
Reinforcement Learning in Feature Space: Matrix Bandit, Kernels, and Regret Bound
Lin F. Yang, Mengdi Wang
TL;DRMatrixRL 是一种在线强化学习算法,可以通过学习概率转换模型的低维表示来缓解维度性的问题,同时可以平衡探索和开发之间的权衡。此算法具有接近于时间 $T$ 和维度 $d$(或 $ ilde {d}$)稳定性的可能性。