May, 2024

透视强化学习的庞特里亚金方法

TL;DR传统上,强化学习集中于学习状态相关策略以解决闭环最优控制问题;本文提出了开环强化学习范式,通过学习固定行动序列,引入了三种新算法:一种鲁棒的基于模型的方法和两种高效的无模型方法。基于开环最优控制理论中的庞特里亚金原理,而非动态规划中的贝尔曼方程,我们提供了收敛性保证,并在振子摆起任务以及两个高维 MuJoCo 任务上通过实证评估展示了与现有基线方法相比显着的性能。