Oct, 2012

稀疏 Q 学习和镜像下降

TL;DR该论文探讨了基于在线凸优化的强化学习的新框架,特别是镜像下降及相关算法,提出了一种新的类似于梯度下降的迭代方法。其中,基于不同Bregman散度的抛物线梯度强化学习法比常规TD学习更为普适。还提出了一种新型的稀疏镜像下降强化学习方法,相比之前基于二阶矩阵方法的方法,在寻找一个l1正则化Bellman方程的稀疏不动点时具有显著的计算优势。