Jun, 2024

学习抽象世界模型用于值保持规划和选项

TL;DR通过学习抽象 MDP(Markov 决策过程)来提高智能体在多任务环境中的决策和学习效率。