Mar, 2024

Koopman 辅助强化学习

TL;DR基于 Koopman 算子和马尔可夫决策过程(MDPs)的连接,发展了两种新的强化学习算法,以解决高维状态和非线性问题,构建了 “Koopman tensor” 来估计最优价值函数,通过 Koopman 张量对 Bellman 框架进行了转换,形成软值迭代和软演员 - 评论家(SAC)算法。