NIPSJun, 2020

正则化的离线 TD 学习

TL;DR本文提出了一种新的 $l_1$ 正则化的离策略收敛 TD 学习方法(称为 RO-TD),能够以较低的计算复杂度学习值函数的稀疏表示,并且具有在线凸正则化的特征选择能力。详细的理论和实验分析表明该算法具有离策略收敛、稀疏特征选择能力和低计算成本。