May, 2023

深度度量张量正则化的策略梯度

TL;DR本文提出了一种新的策略梯度算法,使用矩阵张量分解以及 Riemann 流形,通过最小化 Riemann 流形中的绝对发散来规范化算法,实现了深度强化学习算法性能的显著提升。