ICMLApr, 2014

L1 正则近似线性规划中状态关联权重和采样分布对近似精度的分析

TL;DR探讨了 $L_1$ 正则化在价值函数逼近中的应用,介绍了一种基于 $L_1$ 正则化的近似线性规划方法(RALP):通过离线策略样本逼近最优价值函数并生成优于以往方法的策略;同时讨论了目标函数中状态关联权重和样本分布对模型逼近品质的影响,给出理论和实验结果,并提供了 RALP 擅长逼近的 MDP 类型。