Jun, 2024

运算符世界模型用于强化学习

TL;DR通过使用条件均值嵌入学习环境的世界模型,并利用 RL 的操作性表达式进行矩阵运算,结合 Policy Mirror Descent(PMD)估计量,我们提出了一个新的 RL 算法 POWR,证明了其收敛速度达到全局最优。实验结果表明我们的方法在有限和无限状态设置下是有效的。