ICMLJun, 2012

惩罚估计在统计线性估计中的应用:强化学习

TL;DR探讨线性逆问题的正则化估计,提出一种不需要数据分割的正则化参数选择方法,研究结果为强化学习中线性价值函数估计提供了新的理解和限制。