May, 2024
接触丰富可微分模拟中的政策学习自适应视野演员评论家
Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation
Ignat Georgiev, Krishnan Srinivasan, Jie Xu, Eric Heiden, Animesh Garg
TL;DR探讨了模型自由强化学习方法的优化问题,引入了一种基于模型的算法 (AHAC),通过适应模型的 horizon 避免 stiff dynamics,实验结果表明 AHAC 在特定任务中表现优于传统方法,具有更好的时间效率。