Mar, 2024
Koopman 辅助强化学习
Koopman-Assisted Reinforcement Learning
Preston Rozwood, Edward Mehrez, Ludger Paehler, Wen Sun, Steven L. Brunton
TL;DR基于 Koopman 算子和马尔可夫决策过程(MDPs)的连接,发展了两种新的强化学习算法,以解决高维状态和非线性问题,构建了 “Koopman tensor” 来估计最优价值函数,通过 Koopman 张量对 Bellman 框架进行了转换,形成软值迭代和软演员 - 评论家(SAC)算法。