Jun, 2022

Value Memory Graph: 离线强化学习的基于图结构的世界模型

TL;DR该研究旨在解决在复杂环境中直接应用强化学习方法以学习策略时遇到的困难,提出了一种基于图的马尔可夫决策过程的简单离线世界模型,称为 Value Memory Graph,可有效地解决回报稀疏和长时间跨度等问题。