ICMLJun, 2012

稀疏强化学习的贪心算法

TL;DR详细分析了正交匹配追踪(OMP)在强化学习中的可行性和效率,同时与 $L_1$ 正则化方法进行比较,并提出了支持特征字典假设的 OMP-BRM 变体和在近似准确度和效率方面优于先前方法的 OMP-TD 变体。