May, 2024

策略梯度方法的矩阵低秩近似

TL;DR基于低秩矩阵模型的策略优化方法降低了神经网络模型的计算和样本复杂度,同时实现了类似的累积奖励。