Jan, 2023

部分优势估计器用于近端策略优化

TL;DR研究如何改善不完整轨迹下 GAE 方法估计价值函数时的偏差问题,提出使用 GAE 方法的一部分来计算更新,称之为 “partial GAE approach”,在实验证明该方法在两个环境中都得到更好的结果。