ICMLFeb, 2022

可微模拟器是否提供更好的策略梯度?

TL;DR本研究探讨了可微分模拟器在长期规划和物理系统控制等复杂领域中的性能因素,提出了一种 alpha 阶梯度估计器以结合一阶估计的效率和零阶方法的鲁棒性,并在数值示例中证明其优点