Aug, 2015

低秩模型的值函数逼近

TL;DR本研究提出了一种基于稀疏矩阵模型和鲁棒主成分分析方法的价值函数近似技术,可精确表示马尔可夫决策过程中的状态 - 动作值函数,实验结果表明该方法比其他方法更接近真实函数。