Jan, 2022

强化学习中的张量和矩阵低秩值函数逼近

TL;DR论文提出了一种基于随机低秩算法和张量拟合方法的、无模型且在线的环境中的 VF 矩阵估计算法,有效地解决了高维状态空间下基于线性或神经网络的 VF 估计方法的维度灾难问题,得到了满意的性能评估效果。