Apr, 2022
带有并行可微模拟的加速策略学习
Accelerated Policy Learning with Parallel Differentiable Simulation
Jie Xu, Viktor Makoviychuk, Yashraj Narang, Fabio Ramos, Wojciech Matusik...
TL;DR本文提出 SHAC 算法,该算法基于高性能可微分模拟器,可以有效利用模拟梯度,避免局部最小值问题,并通过截断学习窗口来避免梯度消失或爆炸。在控制任务中表现出更高的样本效率和更短的训练时间。