May, 2024

接触丰富可微分模拟中的政策学习自适应视野演员评论家

TL;DR探讨了模型自由强化学习方法的优化问题,引入了一种基于模型的算法 (AHAC),通过适应模型的 horizon 避免 stiff dynamics,实验结果表明 AHAC 在特定任务中表现优于传统方法,具有更好的时间效率。