Apr, 2022

带有并行可微模拟的加速策略学习

TL;DR本文提出 SHAC 算法,该算法基于高性能可微分模拟器,可以有效利用模拟梯度,避免局部最小值问题,并通过截断学习窗口来避免梯度消失或爆炸。在控制任务中表现出更高的样本效率和更短的训练时间。