May, 2012

使用线性回归探索紧凑的强化学习表示

TL;DR本文介绍了一种新的在线线性回归算法,其效率保证满足 KWIK 框架的要求,并将该算法应用于强化学习模型中,通过学习紧凑的表示方法进行模型训练和预测。