Feb, 2021

策略梯度方差减少方法的收敛和样本效率

TL;DR本研究提出一种简单且有效的梯度截断机制,可用于加速政策梯度算法的变化减少技术,进而设计了一种名为 TSIVR-PG 的新方法,它不仅能够最大化累积奖励总和,还能在政策的长期访问分布上最大化一般效用函数,并对 TSIVR-PG 进行了理论分析。