Feb, 2023

UGAE: 一种新的非指数折扣方法

TL;DR研究了强化学习中折扣机制的作用,提出了通用广义优势估计(UGAE)算法,引入了 Beta 加权折扣方法,实验证明 UGAE 算法在标准强化学习测试中表现优异于蒙特卡洛优势估计算法。